1. Produits
  2.   PDF Extractor

PDF Extractor en C# .NET

Extrayez des images, du texte, des métadonnées et des données de formulaire d’un document PDF en utilisant Documentize

PDF Extractor en C#

Extrayez des données PDF en C# avec PdfExtractor. Les PDF sont largement utilisés pour stocker des documents car ils conservent la mise en forme sur différents appareils. Cependant, travailler avec des PDF nécessite souvent d’extraire un contenu spécifique—tel que des images, du texte, des métadonnées ou des données structurées—pour la réutilisation, l’analyse ou l’édition. En maîtrisant l’extraction de PDF, vous pouvez gagner du temps, améliorer les flux de travail et obtenir des informations plus approfondies à partir des fichiers avec lesquels vous travaillez.

Fonctionnalités clés

Commencer

  • Téléchargez les fichiers d’assemblage depuis Here ou NuGet.
  • Référencez Documentize dans votre projet .NET.
  • Ajoutez using Documentize;.
  • Définissez votre licence License.Set("license.lic"); - Optionnel.

Pourquoi choisir PDF Extractor

  • Idéal pour les développeurs et les entreprises gérant du contenu visuel dans les rapports, présentations et archives.
  • Extraction rapide et efficace pour une réutilisation facile du contenu.
  • Multiples modes d’extraction pour une flexibilité maximale.
  • Intégration .NET fluide pour simplifier les flux de travail.
  • Systèmes d’exploitation pris en charge : Windows 7-11, Windows Server 2003-2022, macOS (10.12+), et Linux.
  • Frameworks pris en charge de la version 4.0 à 8.0.
  • Compatible avec diverses versions de Microsoft Visual Studio.
  • Documentation détaillée et high-quality documentation

Comment extraire des images avec PDF Extractor

  • Configurez ImageExtractorOptions avec le chemin du fichier d’entrée et les autres paramètres nécessaires
  • Appelez PdfExtractor.Extract avec une instance de ExtractImagesOptions en paramètre
  • Accédez aux images extraites via le ResultContainer.ResultCollection

Via .NET


Comment extraire du texte d’un PDF

  • Créez des instances de ExtractTextOptions et définissez le PDF d’entrée
  • Appelez PdfExtractor.Extract avec une instance de ExtractTextOptions en paramètre et accédez au texte extrait

Via .NET


Comment exporter les données des champs PDF

  • Créez une instance de ExtractFormDataToDsvOptions pour configurer le processus d’exportation des données vers CSV
  • Ajoutez les fichiers d’entrée et de sortie aux options
  • Appelez la méthode PdfExtractor.Extract, en passant les options en paramètre

Via .NET


Comment extraire les propriétés d’un PDF

Via .NET


Foire aux questions

Qu’est-ce que PDF Extractor ?

PDF Extractor for .NET est un outil puissant conçu pour extraire rapidement et facilement des images, du texte, des métadonnées ou des données de formulaire à partir de documents PDF. Il s’intègre de façon transparente à votre application .NET, offrant une solution conviviale pour accéder au contenu visuel des PDF.

Puis-je utiliser PDF Extractor for .NET pour d’autres opérations PDF ?

Non, ce plugin est spécifiquement destiné à l’extraction depuis les PDF. Pour d’autres tâches liées aux PDF, vous pouvez explorer les plugins additionnels disponibles dans la bibliothèque Documentize ou exploiter ses capacités complètes pour le traitement de documents.

Pourquoi aurais‑je besoin d’extraire du texte/des images/des métadonnées/des données de formulaire d’un PDF ?

L’extraction de ces données peut être utile pour analyser des documents, préparer des rapports, travailler avec l’IA.

Quels types de formats de sortie prend‑il en charge ?

Actuellement ce plugin extrait les images au format PNG. Les données de formulaire sont exportées spécifiquement au format CSV. Si vous avez besoin d’autres formats comme JSON ou XML, vous devrez utiliser des outils supplémentaires ou personnaliser la sortie vous‑même.

Puis‑je extraire du texte depuis des PDF numérisés ?

Si le PDF est numérisé ou contient des images de texte, un processus OCR (Reconnaissance Optique de Caractères) peut être nécessaire pour convertir le texte basé sur l’image en un format éditable.

 Français