PDF Extractor

Extract Data from PDF in C# with PDF Extractor. Les PDF sont largement utilisés pour stocker des documents car ils conservent la mise en forme sur différents appareils. Cependant, travailler avec des PDF nécessite souvent d’extraire du contenu spécifique — images, texte, métadonnées ou données structurées — pour les réutiliser, les analyser ou les modifier. En maîtrisant l’extraction PDF, vous pouvez gagner du temps, améliorer les flux de travail et obtenir des insights plus profonds à partir des fichiers que vous traitez.

Fonctionnalités clés

🔹 Extraction d’images

Les PDF contiennent fréquemment des logos, graphiques, photos ou images numérisées. Extraire ces images vous permet de les réutiliser sans copier des pages entières. Extraction d’images haute résolution – récupérez les images exactement comme elles apparaissent dans votre PDF pour un usage professionnel.

🔹 Extraction de texte

L’extraction de texte vous permet de convertir le contenu lisible d’un PDF en texte éditable. C’est particulièrement utile lorsque vous devez réutiliser ou analyser le contenu écrit. Choisissez parmi trois modes de précision pour répondre à vos besoins :

Mode Pure — Conserve le formatage d’origine pour une sortie structurée

Mode Brut — Extrait le texte brut sans formatage

Mode Aplati — Supprime les caractères spéciaux et le formatage pour un texte propre et minimal

🔹 Extraction des propriétés (Métadonnées)

L’extraction des propriétés vous fournit des informations sur le document PDF. Propriétés disponibles qui peuvent vous intéresser : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

🔹 Exportation des données des AcroForms

Les formulaires PDF sont largement utilisés dans les applications, les enquêtes, les factures et les contrats. Ils permettent aux utilisateurs de saisir des informations directement dans des champs interactifs. Mais une fois les formulaires remplis, les organisations ont souvent besoin d’extraire ces données pour le stockage, le reporting ou l’analyse.

Getting Started

Téléchargez les fichiers d’assemblage depuis Here ou NuGet.
Référencez Documentize dans votre projet .NET.
Ajoutez using Documentize;.
Définissez votre licence License.Set("license.lic"); - Optionnel.

Why Choose PDF Extractor

Idéal pour les développeurs et les entreprises qui gèrent du contenu visuel dans les rapports, présentations et archives.
Extraction rapide et efficace pour une réutilisation aisée du contenu.
Modes d’extraction multiples pour une flexibilité maximale.
Intégration .NET fluide pour simplifier les flux de travail.
Systèmes d’exploitation pris en charge : Windows 7‑11, Windows Server 2003‑2022, macOS (10.12+), et Linux.
Frameworks supportés de la version 4.0 à 8.0.
Compatibilité avec diverses versions de Microsoft Visual Studio.
Documentation détaillée et high-quality documentation

How to Extract Images with PDF Extractor

Configurez ImageExtractorOptions avec le chemin du fichier d’entrée et les autres paramètres nécessaires
Appelez PdfExtractor.Extract avec une instance de ExtractImagesOptions comme paramètre
Accédez aux images extraites via ResultContainer.ResultCollection

How to Extract Text from PDF

Créez des instances de ExtractTextOptions et définissez le PDF d’entrée
Appelez PdfExtractor.Extract avec une instance de ExtractTextOptions comme paramètre et accédez au texte extrait

How to Export PDF fields data

Créez une instance de ExtractFormDataToDsvOptions pour configurer le processus d’exportation des données vers CSV
Ajoutez les fichiers d’entrée et de sortie aux options
Appelez la méthode PdfExtractor.Extract, en passant les options comme paramètre

Foire aux questions

Qu’est‑ce que PDF Extractor ?

PDF Extractor for .NET est un outil puissant conçu pour extraire rapidement et facilement des images, du texte, des métadonnées ou des données de formulaire à partir de documents PDF. Il s’intègre parfaitement à votre application .NET, offrant une solution conviviale pour accéder au contenu visuel des PDFs.

Puis‑je utiliser PDF Extractor for .NET pour d’autres opérations PDF ?

Non, ce plugin est spécifiquement dédié à l’extraction depuis les PDFs. Pour d’autres tâches liées aux PDF, vous pouvez explorer les plugins additionnels disponibles dans la bibliothèque Documentize ou exploiter ses capacités complètes de traitement de documents.

Pourquoi aurais‑je besoin d’extraire du texte/images/métadonnées/données de formulaire d’un PDF ?

L’extraction de ces données peut être utile pour analyser des documents, préparer des rapports, travailler avec l’IA.

Quels types de formats de sortie ce plugin prend‑il en charge ?

Actuellement ce plugin extrait les images au format PNG. Les données des formulaires sont exportées spécifiquement au format CSV. Si vous avez besoin d’autres formats comme JSON ou XML, il vous faudra recourir à des outils additionnels ou personnaliser la sortie vous‑même.

Puis‑je extraire du texte depuis des PDFs scannés ?

Si le PDF est scanné ou contient des images de texte, un processus OCR (Reconnaissance Optique de Caractères) peut être nécessaire pour convertir le texte basé sur l’image en un format éditable.

PDF Extractor in C#/.NET

Extrayez des images, du texte, des métadonnées et des données de formulaire d’un document PDF