Extrayez des données PDF en C# avec PdfExtractor. Les PDF sont largement utilisés pour stocker des documents car ils conservent la mise en forme sur différents appareils. Cependant, travailler avec des PDF nécessite souvent d’extraire un contenu spécifique—tel que des images, du texte, des métadonnées ou des données structurées—pour la réutilisation, l’analyse ou l’édition. En maîtrisant l’extraction de PDF, vous pouvez gagner du temps, améliorer les flux de travail et obtenir des informations plus approfondies à partir des fichiers avec lesquels vous travaillez.
Fonctionnalités clés
🔹 Extraire les images
Les PDF contiennent fréquemment des logos, des graphiques, des photos ou des images numérisées. Extraire ces images vous permet de les réutiliser sans avoir à copier des pages entières. Extraction d’images haute résolution – Récupérez les images exactement telles qu’elles apparaissent dans votre PDF pour une utilisation professionnelle.
🔹 Extraire le texte
L’extraction de texte vous permet de convertir le contenu lisible d’un PDF en texte éditable. Cela est particulièrement utile lorsque vous devez réutiliser ou analyser le contenu écrit. Choisissez parmi trois modes de précision pour répondre à vos besoins :
Mode Pure — Conserve le formatage original pour une sortie structurée
Mode Brut — Extrait le texte brut sans formatage
Mode Aplat — Supprime les caractères spéciaux et le formatage pour un texte propre et minimal
🔹 Extraire les propriétés (Métadonnées)
L’extraction des propriétés vous donne des informations sur le document PDF. Propriétés disponibles susceptibles de vous intéresser : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
🔹 Exporter les données des AcroForms
Les formulaires PDF sont largement utilisés dans les applications, les enquêtes, les factures et les contrats. Ils permettent aux utilisateurs de saisir des informations directement dans des champs interactifs. Une fois les formulaires remplis, les organisations ont souvent besoin d’extraire ces données pour le stockage, les rapports ou l’analyse.
using Documentize;.License.Set("license.lic"); - Optionnel.ImageExtractorOptions avec le chemin du fichier d’entrée et les autres paramètres nécessairesPdfExtractor.Extract avec une instance de ExtractImagesOptions en paramètreResultContainer.ResultCollectionExtractTextOptions et définissez le PDF d’entréePdfExtractor.Extract avec une instance de ExtractTextOptions en paramètre et accédez au texte extraitExtractFormDataToDsvOptions pour configurer le processus d’exportation des données vers CSVPdfExtractor.Extract, en passant les options en paramètrePDF Extractor for .NET est un outil puissant conçu pour extraire rapidement et facilement des images, du texte, des métadonnées ou des données de formulaire à partir de documents PDF. Il s’intègre de façon transparente à votre application .NET, offrant une solution conviviale pour accéder au contenu visuel des PDF.
Non, ce plugin est spécifiquement destiné à l’extraction depuis les PDF. Pour d’autres tâches liées aux PDF, vous pouvez explorer les plugins additionnels disponibles dans la bibliothèque Documentize ou exploiter ses capacités complètes pour le traitement de documents.
L’extraction de ces données peut être utile pour analyser des documents, préparer des rapports, travailler avec l’IA.
Actuellement ce plugin extrait les images au format PNG. Les données de formulaire sont exportées spécifiquement au format CSV. Si vous avez besoin d’autres formats comme JSON ou XML, vous devrez utiliser des outils supplémentaires ou personnaliser la sortie vous‑même.
Si le PDF est numérisé ou contient des images de texte, un processus OCR (Reconnaissance Optique de Caractères) peut être nécessaire pour convertir le texte basé sur l’image en un format éditable.