1. 製品
  2.   テキストエクス

NET用のPDFテキスト抽出ツール

PDF文書から純粋な、生の、またはプレーンテキストを抽出するには、Documentize .NETプラグインを使用してください。

NET用のテキストエクストラクタ

ドキュメントアイゼテキストエクストラクター for .NETプラグインの紹介 - PDFドキュメントからテキストを抽出するプロセスを簡素化する強力なツールです。このプラグインは単なるテキストエクストラクター以上のものであり、ドキュメント管理プロセスの効率性と多様性を向上させる包括的なソリューションです。 プラグインは、PDFドキュメントをスキャンし、埋め込まれたテキストを特定することによって機能します。その後、このテキストを抽出し、元のフォーマットと構造を保持します。このプロセスは、コンテンツのアクセシビリティと使いやすさを向上させることを目的としています。 このプラグインの際立った特徴の一つは、純粋、ローモード、プレインモードの三つの操作モードを提供できることです。純粋モードは、元のフォーマットを保持しながらテキストを抽出します。ローモードは、フォーマットなしでそのままテキストを抽出します。プレインモードは、テキストを抽出し、特別な文字やフォーマットを削除します。これらのモードは、.NETアプリケーションにおけるテキスト抽出タスクに柔軟性と利便性を提供し、ニーズに最適なモードを選択できるようにします。 しかし、このプラグインの利点はテキスト抽出にとどまりません。PDFからテキストを抽出するために必要な時間と労力を最小限に抑え、スムーズで効率的な抽出プロセスを提供します。このプラグインを使えば、迅速かつ簡単なテキスト抽出の便利さを体験できます。 要約すると、Documentize Text Extractor for .NETプラグインは、PDF文書からのテキスト抽出プロセスを効率化し、コンテンツのアクセシビリティを向上させ、文書管理プロセスを簡素化する包括的なソリューションです。今すぐお試しになり、私たちのプラグインの便利さと効率を体験してください。新しい効率のレベルを発見してください!

NETを使用してPDFからテキストを抽出する方法

  • プロジェクトにドキュメント化を参照してください。
  • ライセンスキーを設定してください。
  • TextExtractorOptions` のインスタンスを作成します。
  • TextExtractorOptions.AddDataSource`を使用して入力PDFドキュメントを追加します。
  • TextExtractorOptions.Processを呼び出して結果をResultContainer` に代入します。
  • 抽出されたテキストには ResultContainer.ResultCollection を使用してアクセスします。

PDFテキスト抽出ツールの使い方

ダウンロードからアセンブリファイルを取得するか、NuGetからパッケージを取得して、Documentizeを直接ワークスペースに追加してください。

  • サポートされているオペレーティングシステムは、Windows 7-11、Windows Server 2003-2022、macOS(10.12以上)、およびLinuxです。
  • サポートされているフレームワークは4.0から7.0までです。
  • さまざまなMicrosoft Visual Studioバージョンと互換性があります。


複数のPDFからテキストを抽出する方法

  • プロジェクトにおける.NETのリファレンスドキュメント化
  • ライセンスキーを設定してください。
  • TextExtractorおよびTextExtractorOptions`のインスタンスを作成します。
  • TextExtractorOptions.AddDataSource`を使用して入力PDFドキュメントを追加します。
  • TextExtractorOptionsのインスタンスをパラメータとしてTextExtractor.Process` を呼び出します。
  • ResultContainer` のインスタンスに結果を取得します。
  • 以下のテキストを翻訳します:- ‘ResultContainer.ResultCollection’を使用して抽出されたテキストにアクセスします。

テキストエクストラクターの動作モード

  • Pure` オプション は、相対的な位置を組み込み、追加のスペースを導入して、ページの幅にテキストを整列させる、さまざまな書式手順を使用して PDF ファイルからテキストを抽出する機能を有効にします。
  • PDFファイルからテキストを抽出し、書式を適用せずに抽出します。
  • Plain`モードは、PDFファイルからテキストを抽出し、テキストフラグメントの相対的な配置を考慮しますが、「Pure」モードとは異なり、余分なスペースは追加しません。

よくある質問

Documentize Text Extractor for .NETは何をしますか?

Documentize Text Extractor for .NETは、.NETアプリケーション向けに設計されたプラグインで、PDFドキュメントからのテキスト抽出を提供します。操作モードは「Pure」、「Raw」、および「Plain」の3つがあり、デフォルトは「Raw」モードです。多様な入力および出力オプションをサポートし、複数のPDFファイルを同時に処理でき、開発者向けのカスタマイズも可能で、.NET環境内でのテキスト抽出に便利なソリューションとなっています。

Documentize for .NET と Documentize Text Extractor for .NET の違いは何ですか?

Documentize for .NETは、文書生成、圧縮、テーブル作成、PDFデータのインポートとエクスポートなど、幅広いPDFタスクに対応した強力な.NET APIです。一方、Documentize Text Extractor for .NETは、PDFドキュメントからのテキスト抽出に特化したプラグインで、テキスト抽出機能に重点を置いています。

Documentize Text Extractor for .NETはPDFからのテキスト抽出にのみ制限されていますか?

はい、PDF Text Extractor for .NETはPDFからテキストを抽出するために特別に設計されています。他の操作には、他のPDFプラグインやDocumentizeライブラリの完全な機能を使用することができます。

Documentize は PDF テキスト抽出のためのオンラインツールを提供していますか?

はい、Documentizeは基本的なニーズのために無料のオンラインPDFテキストパーサーツールを提供しています。

C#でDocumentizeテキスト抽出の例はどこにありますか?

Extract Text from PDF for .NET](https://products.aspose.com/pdf/net/parser/text/)のランディングページをご覧ください。

 日本語