1. Produkte
  2.   Textextractor

PDF-Textextraktor für .NET

Extrahieren Sie reinen, rohen oder einfachen Text aus PDF-Dokumenten mit Documentize .NET Plug-in.

Textauszug für .NET

Einführung des Documentize Text Extractor für das .NET-Plugin - ein leistungsstarkes Werkzeug, das den Prozess des Text_extracting_ aus Ihren PDF-Dokumenten vereinfacht. Dieses Plugin ist mehr als nur ein Textextraktor - es ist eine umfassende Lösung, die die Effizienz und Vielseitigkeit Ihres Dokumentenverwaltungsprozesses verbessert. Das Plugin funktioniert, indem es Ihre PDF-Dokumente scannt und eingebetteten Text identifiziert. Anschließend extrahiert es diesen Text und bewahrt dabei seine ursprüngliche Formatierung und Struktur. Dieser Prozess dient dazu, die Zugänglichkeit und Benutzerfreundlichkeit Ihrer Inhalte zu verbessern. Eines der herausragenden Merkmale dieses Plugins ist seine Fähigkeit, drei Betriebsmodi anzubieten: rein, roh und einfach. Der reine Modus extrahiert den Text und bewahrt dabei das ursprüngliche Format. Der Rohmodus extrahiert den Text, wie er ist, ohne jegliche Formatierung. Der einfache Modus extrahiert den Text und entfernt alle Sonderzeichen oder Formatierungen. Diese Modi bieten Flexibilität und Bequemlichkeit bei der Texteextraktion in .NET-Anwendungen und stellen sicher, dass Sie den besten Modus auswählen können, der Ihren Bedürfnissen entspricht. Die Vorteile dieses Plugins gehen jedoch über die Textextraktion hinaus. Es bietet auch einen reibungslosen und effizienten Extraktionsprozess, der die benötigte Zeit und den Aufwand zur Textextraktion aus Ihrer PDF-Datei minimiert. Mit diesem Plugin können Sie die Bequemlichkeit einer schnellen und einfachen Textextraktion erleben. Zusammenfassend ist der Documentize Text Extractor für .NET ein umfassendes Tool, das den Prozess der Textextraktion aus Ihren PDF-Dokumenten optimiert, die Zugänglichkeit Ihrer Inhalte verbessert und Ihren Dokumentenverwaltungsprozess verschlankt. Probieren Sie es jetzt aus und erleben Sie noch heute die Bequemlichkeit und Effizienz unseres Plugins. Entdecken Sie ein neues Maß an Effizienz!

Wie man Text aus einer PDF-Datei über .NET extrahiert.

  • Referenzdokument in Ihr Projekt einfügen
  • Setzen Sie Ihre Lizenzschlüssel.
  • Erstellen Sie Instanzen von TextExtractorOptions.
  • Fügen Sie Eingabe-PDF-Dokumente mithilfe von TextExtractorOptions.AddDataSource hinzu.
  • Rufen Sie TextExtractorOptions.Process auf und weisen Sie das Ergebnis ResultContainer zu.
  • Greifen Sie auf den extrahierten Text mit ResultContainer.ResultCollection zu.

Zu Beginn mit dem PDF-Textextraktor starten

Holen Sie die Assembly-Dateien aus den Downloads oder laden Sie das Paket von NuGet, um Documentize direkt in Ihren Arbeitsbereich hinzuzufügen.

  • Unterstützte Betriebssysteme umfassen Windows 7-11 und Windows Server 2003-2022, macOS (10.12+) und Linux.
  • Unterstützte Frameworks reichen von 4.0 bis 7.0.
  • Kompatibel mit verschiedenen Microsoft Visual Studio-Versionen


Wie man Text aus mehreren PDFs extrahiert

  • Referenzdokumentation für .NET in Ihrem Projekt
  • Setzen Sie Ihre Lizenzschlüssel.
  • Erstellen Sie Instanzen von TextExtractor & TextExtractorOptions.
  • Fügen Sie Eingabe-PDF-Dokumente mithilfe von TextExtractorOptions.AddDataSource hinzu.
  • Rufen Sie TextExtractor.Process mit einer Instanz von TextExtractorOptions als Parameter auf.
  • Erhalten Sie das Ergebnis in eine Instanz von ResultContainer.
  • Greifen Sie auf den extrahierten Text zu, indem Sie ResultContainer.ResultCollection verwenden.

Extraktor-Betriebsmodi

  • Die Option Pure ermöglicht die Textextraktion aus einer PDF-Datei mit verschiedenen Formatierungsvorgängen, die relative Positionen beinhalten und zusätzlichen Leerzeichen einführen, um den Text an die Breite der Seite auszurichten.
  • Der Raw-Modus extrahiert den Text aus der PDF-Datei, ohne jegliche Formatierung anzuwenden.
  • Der Plain-Modus extrahiert Text aus der PDF-Datei, wobei die relative Positionierung der Textfragmente berücksichtigt wird. Im Gegensatz zum “Pure”-Modus fügt er jedoch keinen zusätzlichen Abstand hinzu.

Häufig gestellte Fragen

Was macht der Documentize Text Extractor für .NET?

Documentize Text Extractor für .NET ist ein Plugin, das für .NET-Anwendungen entwickelt wurde und das Extrahieren von Text aus PDF-Dokumenten in drei Betriebsmodi ermöglicht: Pure, Raw und Plain. Es ist standardmäßig im ‘Raw’-Modus eingestellt, unterstützt vielseitige Eingabe- und Ausgabeoptionen, ermöglicht die gleichzeitige Verarbeitung mehrerer PDF-Dateien und bietet Anpassungsmöglichkeiten für Entwickler, was es zu einer praktischen Lösung für die Textextraktion in .NET-Umgebungen macht.

Was ist der Unterschied zwischen Documentize für .NET und Documentize Text Extractor für .NET?

Documentize für .NET ist eine leistungsstarke .NET-API für eine Vielzahl von PDF-Aufgaben, einschließlich Dokumentenerstellung, Kompression, Tabellencreation und fortgeschrittenen Funktionen wie dem Importieren und Exportieren von PDF-Daten. Auf der anderen Seite ist Documentize Text Extractor für .NET ein spezialisiertes Plugin, das sich ausschließlich auf die Textextraktion aus PDF-Dokumenten konzentriert und die Textextraktionsfähigkeiten betont.

Ist Documentize Text Extractor für .NET nur darauf beschränkt, Text aus PDF zu extrahieren?

Ja, der PDF Text Extractor für .NET ist speziell zum Extrahieren von Text aus PDF konzipiert. Für andere Operationen können Sie andere PDF-Plugins oder die vollständigen Funktionen der Documentize-Bibliothek verwenden.

Bietet Documentize ein Online-Tool zur PDF-Textextraktion an?

Ja, Documentize bietet ein kostenloses Online-PDF-Textparser-Tool für grundlegende Bedürfnisse an.

Wo kann ich Beispiele für die Textextraktion mit Documentize in C# finden?

Entdecken Sie unsere Landing Pages für Text aus PDF extrahieren für .NET

 Deutsch