1. 製品
  2.   PDF Extractor

PDF Extractor in C# .NET

Documentize .NETプラグインを使用してPDFドキュメントから画像、テキスト、フォームデータを抽出します

C#によるPDF Extractor

PdfExtractorを使用してC#でPDFから画像、テキスト、データを抽出します。 PDFは異なるデバイス間でフォーマットを保持するため、文書を保存するために広く使用されています。しかし、PDFを扱う際には、再利用、分析、編集のために特定のコンテンツ(画像、テキスト、構造化データなど)を抽出する必要があります。

PDF Extractorの主な機能

PDFにはロゴ、チャート、写真、またはスキャン画像が頻繁に含まれています。これらの画像を抽出することで、完全なページをコピーすることなく再利用できます。

テキスト抽出により、PDFの読み取り可能なコンテンツを編集可能なテキストに変換できます。これは特に、書かれたコンテンツを再利用したり分析する必要がある場合に役立ちます。

PDFフォームは、アプリケーション、調査、請求書、契約などで広く使用されています。これらはユーザーがインタラクティブなフィールドに直接情報を入力できるようにします。しかし、フォームが記入されると、組織はしばしばそのデータをストレージ、報告、または分析のために抽出する必要があります。

PDFから画像、テキスト、および構造化データを抽出することで、静的ファイルがアクション可能なリソースに変わります。グラフィックスを再利用したり、書かれたコンテンツを編集したり、表を分析したりする際に、これらの機能が文書の潜在能力を最大限に引き出します。PDF抽出をマスターすることで、時間を節約し、ワークフローを改善し、作業するファイルからより深い洞察を得ることができます。

PDF Extractorで画像を抽出する方法

  • .NETプロジェクトでDocumentizeを参照する
  • ライセンスキーを設定する
  • 入力ファイルパスや必要な設定を使用してImageExtractorOptionsを構成する
  • ExtractImagesOptionsのインスタンスをパラメータとしてPdfExtractor.ExtractImagesを呼び出す
  • プラグインを使用して画像抽出プロセスを実行する
  • ResultContainer.ResultCollectionを通じて抽出された画像にアクセスする

はじめに

  • ダウンロードからアセンブリファイルを取得するか、NuGetからパッケージを取得してDocumentizeを直接ワークスペースに追加する。
  • レポート、プレゼンテーション、およびアーカイブでビジュアルコンテンツを管理する開発者やビジネスに最適です。


C#経由でPDFからテキストを抽出する方法

  • プロジェクトでDocumentizeを参照する
  • ライセンスキーを設定する
  • TextExtractorOptionsのインスタンスを作成する
  • TextExtractorOptions.AddInputを使用して入力PDFドキュメントを追加する
  • TextExtractorOptionsのインスタンスをパラメータとしてPdfExtractor.ExtractTextを呼び出す
  • ResultContainer.ResultCollectionを使用して抽出されたテキストにアクセスする

なぜPDF Extractorを選ぶべきか?

  • 簡単なコンテンツ再利用のための迅速で効率的なテキスト抽出。
  • 最大の柔軟性のための複数の抽出モード。
  • ワークフローを簡素化するシームレスな.NET統合。
  • コンテンツを編集、共有、またはアーカイブしやすくすることによってアクセシビリティが向上。
  • 詳細で高品質なドキュメントを提供。


PDFデータをエクスポートする方法

  • プロジェクトでDocumentizeを参照する
  • ライセンスキーを設定する
  • データをCSVにエクスポートするプロセスを構成するためにExtractFormDataToDsvOptionsのインスタンスを作成する
  • オプションに入力ファイルと出力ファイルを追加する
  • オプションをパラメータとして渡し、FormExporter.ExtractFormDataメソッドを呼び出す
  • ResultContainer.ResultCollectionを使用して結果にアクセスする

サポートされているシステム

  • サポートされているオペレーティングシステムには、Windows 7-11、Windows Server 2003-2022、macOS(10.12以上)、およびLinuxが含まれます。
  • フレームワークは4.0から8.0までサポートされています。
  • 様々なバージョンのMicrosoft Visual Studioと互換性があります。


よくある質問

PDF Extractorとは何ですか?

PDF Extractor for .NETは、PDFドキュメントから画像、テキスト、またはPDFのフォームデータを迅速かつ簡単に抽出するために設計された強力なツールです。これは、PDFからの視覚的コンテンツにアクセスするためのユーザーフレンドリーなソリューションを提供し、あなたの.NETアプリケーションにシームレスに統合されます。

PDF Extractor for .NETを他のPDF操作に使用できますか?

いいえ、このプラグインはPDFからの抽出専用です。他のPDF関連のタスクについては、Documentizeライブラリにある追加のプラグインを探索するか、ドキュメント処理のためのフル機能を利用してください。

PDFからテキスト/画像/フォームデータを抽出する必要があるのはなぜですか?

このデータを抽出することは、文書を分析し、レポートを準備し、AIと連携するために役立ちます。

どのような出力形式をサポートしていますか?

現在、このプラグインはPNG形式で画像を抽出します。フォームデータは特にCSV形式にエクスポートされます。JSONやXMLなど他の形式が必要な場合は、追加のツールを使用するか、出力を自分でカスタマイズする必要があります。

スキャンしたPDFからテキストを抽出できますか?

PDFがスキャンされたものであるか、テキストの画像を含んでいる場合、画像ベースのテキストを編集可能な形式に変換するためにOCR(光学式文字認識)プロセスが必要な場合があります。

 日本語