1. Produits
  2.   PDF Extractor

PDF Extractor in C# .NET

Extrayez des images, du texte, des métadonnées et des données de formulaire dans un document PDF à l’aide du plugin Documentize .NET

PDF Extractor in C#

Extract Data from PDF in C# with PdfExtractor. Les PDF sont largement utilisés pour stocker des documents car ils conservent la mise en forme sur différents appareils. Cependant, travailler avec des PDF nécessite souvent d’extraire un contenu spécifique — tel que des images, du texte, des métadonnées ou des données structurées — pour les réutiliser, les analyser ou les modifier. En maîtrisant l’extraction PDF, vous pouvez gagner du temps, améliorer les flux de travail et obtenir des informations plus approfondies à partir des fichiers que vous traitez.

Fonctionnalités clés

Les PDF contiennent fréquemment des logos, des graphiques, des photos ou des images numérisées. Extraire ces images vous permet de les réutiliser sans avoir à copier des pages entières.

L’extraction de texte vous permet de convertir le contenu lisible d’un PDF en texte modifiable. Ceci est particulièrement utile lorsque vous devez réutiliser ou analyser le texte.

L’extraction des propriétés vous donne des informations sur le document PDF. Les propriétés disponibles qui peuvent vous intéresser : Titre, Auteur, Sujet, Mots‑clés, Nombre de pages.

Les formulaires PDF sont largement utilisés dans les applications, enquêtes, factures et contrats. Ils permettent aux utilisateurs de saisir des informations directement dans des champs interactifs. Mais une fois les formulaires remplis, les organisations ont souvent besoin d’extraire ces données pour le stockage, les rapports ou l’analyse.

Getting Started

  • Obtenez les fichiers d’assemblage depuis les téléchargements ou récupérez le paquet depuis NuGet pour ajouter Documentize directement à votre espace de travail.
  • Référencez Documentize dans votre projet .NET
  • Définissez votre licence License.Set("license.lic"); Optionnel

Why Choose PDF Extractor

  • Idéal pour les développeurs et les entreprises qui gèrent du contenu visuel dans les rapports, présentations et archives.
  • Extraction rapide et efficace pour une réutilisation facile du contenu.
  • Plusieurs modes d’extraction pour une flexibilité maximale.
  • Intégration .NET fluide pour simplifier les flux de travail.
  • Systèmes d’exploitation supportés : Windows 7‑11, Windows Server 2003‑2022, macOS (10.12+), et Linux.
  • Cadres pris en charge de la version 4.0 à 8.0.
  • Compatible avec diverses versions de Microsoft Visual Studio.
  • Documentation détaillée et de haute qualité

How to Extract Images with PDF Extractor

  • Configurez ImageExtractorOptions avec le chemin du fichier d’entrée et les autres paramètres nécessaires
  • Appelez PdfExtractor.ExtractImages avec une instance de ExtractImagesOptions en paramètre
  • Accédez aux images extraites via ResultContainer.ResultCollection

Via .NET


How to Extract Text from PDF

  • Créez des instances de TextExtractorOptions
  • Ajoutez les documents PDF d’entrée avec TextExtractorOptions.AddInput
  • Appelez PdfExtractor.ExtractText avec une instance de TextExtractorOptions en paramètre
  • Accédez au texte extrait via ResultContainer.ResultCollection

Via .NET


How to export PDF data

  • Créez une instance de ExtractFormDataToDsvOptions pour configurer le processus d’exportation des données vers CSV
  • Ajoutez les fichiers d’entrée et de sortie aux options
  • Appelez la méthode FormExporter.ExtractFormData, en passant les options en paramètre

Via .NET


How to Extract Properties from PDF

Via .NET


Foire aux questions

What is PDF Extractor?

PDF Extractor for .NET est un outil puissant conçu pour extraire rapidement et facilement des images, du texte, des métadonnées et des données de formulaire dans les documents PDF. Il s’intègre parfaitement à votre application .NET, offrant une solution conviviale pour accéder au contenu visuel des PDF.

Can I use PDF Extractor for .NET for other PDF operations?

Non, ce plugin est spécifiquement dédié à l’extraction depuis les PDF. Pour d’autres tâches liées aux PDF, vous pouvez explorer les plugins supplémentaires disponibles dans la bibliothèque Documentize ou exploiter ses capacités complètes de traitement de documents.

Why would I need to extract text/images/metadata/form data from a PDF?

L’extraction de ces données peut être utile pour analyser des documents, préparer des rapports, travailler avec l’IA.

What types of output formats does it support?

Actuellement ce plugin extrait les images au format PNG. Les données des formulaires sont exportées spécifiquement au format CSV. Si vous avez besoin d’autres formats comme JSON ou XML, vous devrez recourir à des outils supplémentaires ou personnaliser la sortie vous‑même.

Can I extract text from scanned PDFs?

Si le PDF est numérisé ou contient des images de texte, un processus de OCR (Reconnaissance Optique de Caractères) peut être nécessaire pour convertir le texte basé sur l’image en un format éditable.

 Français