Extract Data from PDF in C# with PDF Extractor. Les PDF sont largement utilisés pour stocker des documents car ils conservent la mise en forme sur différents appareils. Cependant, travailler avec des PDF nécessite souvent d’extraire un contenu spécifique — images, texte, métadonnées ou données structurées — pour les réutiliser, les analyser ou les modifier. En maîtrisant l’extraction PDF, vous gagnez du temps, améliorez vos flux de travail et obtenez des informations plus approfondies à partir des fichiers que vous traitez.
Key Features
Les PDF contiennent fréquemment des logos, graphiques, photos ou images numérisées. Extraire ces images vous permet de les réutiliser sans avoir à copier des pages entières. Extraction d’images haute résolution – récupérez les images exactement comme elles apparaissent dans votre PDF pour un usage professionnel.
L’extraction de texte vous permet de convertir le contenu lisible d’un PDF en texte éditable. C’est particulièrement utile lorsque vous devez réutiliser ou analyser le texte. Choisissez parmi trois modes de précision selon vos besoins :
Pure Mode — Conserve la mise en forme originale pour une sortie structurée
Raw Mode — Extrait le texte brut sans mise en forme
Flatten Mode — Supprime les caractères spéciaux et la mise en forme pour un texte propre et minimal
L’extraction de propriétés vous fournit des informations sur le document PDF. Propriétés disponibles susceptibles de vous intéresser : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
Les formulaires PDF sont largement utilisés dans les applications, enquêtes, factures et contrats. Ils permettent aux utilisateurs de saisir des informations directement dans des champs interactifs. Mais une fois les formulaires remplis, les organisations doivent souvent extraire ces données pour les stocker, les rapporter ou les analyser.
using Documentize;.License.Set("license.lic"); - Optional.ImageExtractorOptions with the input file path and other necessary settingsPdfExtractor.Extract with an instance of ExtractImagesOptions as parameterResultContainer.ResultCollectionExtractTextOptions and set input PDFPdfExtractor.Extract with an instance of ExtractTextOptions as parameter and access the extracted textExtractFormDataToDsvOptions to configure the process of exporting data to CSVPdfExtractor.Extract method, passing the options as a parameterPDF Extractor for .NET is a powerful tool designed to extract images, text, metadata from PDF documents, or Form Data in PDF quickly and easily. It seamlessly integrates into your .NET application, offering a user-friendly solution for accessing visual content from PDFs.
No, this component is specifically for extraction from PDFs. For other PDF-related tasks, you can explore the additional components available in Documentize library or leverage its full capabilities for document processing.
Extracting this data can be useful for analyze documents, prepare reports, work with AI.
Currently this component extracts images in PNG format. Forms data exports specifically into CSV format. If you need other formats like JSON or XML, you may need to use additional tools or customize the output yourself.
If the PDF is scanned or contains images of text, an OCR (Optical Character Recognition) process may be required to convert the image-based text into an editable format.