1. Produits
  2.   Extracteur de texte

Extracteur de texte PDF pour .NET

Extraire du texte pur, brut ou simple à partir de documents PDF avec Documentize .NET Plugin.

Extracteur de texte pour .NET

Présentation du plugin Documentize Text Extractor pour .NET - un outil puissant qui simplifie le processus d’extraction de texte à partir de vos documents PDF. Ce plugin est plus qu’un simple extracteur de texte - c’est une solution complète qui améliore l’efficacité et la polyvalence de votre processus de gestion documentaire. Le plugin fonctionne en scannant vos documents PDF et en identifiant le texte intégré. Il extrait ensuite ce texte tout en préservant son formatage et sa structure d’origine. Ce processus vise à améliorer l’accessibilité et la convivialité de votre contenu. L’une des caractéristiques remarquables de ce plugin est sa capacité à offrir trois modes de fonctionnement : pur, brut et simple. Le mode pur extrait le texte tout en préservant son formatage original. Le mode brut extrait le texte tel quel, sans aucun formatage. Le mode simple extrait le texte et supprime tous les caractères spéciaux ou le formatage. Ces modes offrent flexibilité et commodité pour les tâches d’extraction de texte dans les applications .NET, garantissant que vous pouvez choisir le meilleur mode qui correspond à vos besoins. Cependant, les avantages de ce plugin vont au-delà de l’extraction de texte. Il offre également un processus d’extraction fluide et efficace, minimisant le temps et les efforts nécessaires pour extraire du texte de votre PDF. Avec ce plugin, vous pouvez profiter de la commodité d’extractions de texte rapides et faciles. En résumé, le plugin Documentize Text Extractor pour .NET est une solution complète qui rationalise le processus d’extraction de texte de vos documents PDF, améliore l’accessibilité de votre contenu et facilite votre gestion documentaire. Essayez-le maintenant et découvrez la commodité et l’efficacité de notre plugin dès aujourd’hui. Découvrez un nouveau niveau d’efficacité !

Comment extraire du texte d’un PDF via .NET

  • Document de référence dans votre projet
  • Définissez vos clés de licence.
  • Créez des instances de TextExtractorOptions
  • Ajoutez des documents PDF d’entrée en utilisant TextExtractorOptions.AddDataSource.
  • Appeler TextExtractorOptions.Process et assigner le résultat à ResultContainer.
  • Accédez au texte extrait en utilisant ResultContainer.ResultCollection.

Commencer avec l'extrait de texte PDF

Obtenez les fichiers d’assemblage depuis les téléchargements ou récupérez le package depuis NuGet pour ajouter Documentize directement à votre espace de travail.

  • Les systèmes d’exploitation pris en charge incluent Windows 7 à 11, Windows Server 2003 à 2022, macOS (version 10.12 et supérieure) et Linux.
  • Les frameworks pris en charge vont de 4.0 à 7.0.
  • Compatible with various versions of Microsoft Visual Studio


Comment extraire du texte de plusieurs PDF

  • Document de référence pour .NET dans votre projet
  • Définissez vos clés de licence.
  • Créez des instances de TextExtractor & TextExtractorOptions
  • Ajoutez des documents PDF d’entrée en utilisant TextExtractorOptions.AddDataSource.
  • Appeler TextExtractor.Process avec une instance de TextExtractorOptions en tant que paramètre
  • Obtenez le résultat dans une instance de ResultContainer.
  • Accédez au texte extrait en utilisant ResultContainer.ResultCollection.

Modes de fonctionnement de l'extracteur de texte

  • L’option Pure permet l’extraction de texte à partir d’un fichier PDF avec diverses procédures de mise en forme, incorporant des positions relatives et introduisant des espaces supplémentaires pour aligner le texte sur la largeur de la page.
  • Le mode Brut extrait le texte du fichier PDF sans appliquer de mise en forme
  • Le mode Plain extrait le texte du fichier PDF, en tenant compte du positionnement relatif des fragments de texte, mais contrairement au mode “Pure”, il n’ajoute pas d’espace supplémentaire.

Foire aux questions

Que fait Documentize Text Extractor pour .NET ?

Documentize Text Extractor pour .NET est un plugin conçu pour les applications .NET, offrant l’extraction de texte à partir de documents PDF avec trois modes de fonctionnement : Pur, Brut et Simple. Il est par défaut en mode ‘Brut’, prend en charge des options d’entrée et de sortie polyvalentes, permet le traitement simultané de plusieurs fichiers PDF et offre des personnalisations pour les développeurs, en faisant une solution pratique pour l’extraction de texte dans les environnements .NET.

Quelle est la différence entre Documentize pour .NET et Documentize Text Extractor pour .NET ?

Documentize pour .NET est une API .NET robuste pour une large gamme de tâches liées aux PDF, y compris la génération de documents, la compression, la création de tableaux et des fonctionnalités avancées comme l’importation et l’exportation de données PDF. D’autre part, Documentize Text Extractor pour .NET est un plugin spécialisé axé uniquement sur l’extraction de texte à partir de documents PDF, mettant en avant les capacités d’extraction de texte.

Le Documentize Text Extractor pour .NET est-il limité uniquement à l’extraction de texte à partir de fichiers PDF ?

Oui, PDF Text Extractor pour .NET est conçu spécifiquement pour extraire du texte à partir de PDF. Pour d’autres opérations, vous pouvez utiliser d’autres plugins PDF ou les fonctionnalités complètes de la bibliothèque Documentize.

Documentize propose-t-il un outil en ligne pour l’extraction de texte à partir de PDF ?

Oui, Documentize propose un outil de parsing de texte PDF en ligne gratuit pour des besoins basiques.

Où puis-je trouver des exemples d’extraction de texte Documentize en C# ?

Découvrez nos pages de destination pour Extraire du texte à partir de PDF pour .NET

 Français