1. 製品
  2.   PDF Extractor

PDF Extractor in C#/.NET

PDF ドキュメントから画像、テキスト、メタデータ、フォームデータを抽出します

PDF Extractor

C# で PDF からデータを抽出する方法。 PDF はデバイス間で書式を保持できるため、文書保存に広く利用されています。しかし、PDF から特定のコンテンツ(画像、テキスト、メタデータ、構造化データなど)を抽出して再利用、分析、編集する必要があることがよくあります。PDF 抽出をマスターすれば、作業時間を短縮し、ワークフローを改善し、ファイルからより深い洞察を得ることができます。

主な機能

PDF にはロゴ、チャート、写真、スキャン画像などが頻繁に含まれます。これらの画像を抽出すれば、ページ全体をコピーせずに再利用できます。 高解像度画像抽出 – PDF に表示されている画像をそのまま取得し、プロフェッショナルに活用できます。

テキスト抽出により、PDF の可読コンテンツを編集可能なテキストに変換できます。書き起こしや分析が必要な場合に特に便利です。 ニーズに合わせて 3 つの精度モードから選択できます:

Pure Mode — 構造化出力のために元の書式を保持
Raw Mode — 書式なしのプレーンテキストを抽出
Flatten Mode — 特殊文字と書式を除去し、シンプルなテキストに整形

プロパティ抽出により PDF ドキュメントに関する情報を取得できます。利用可能なプロパティ例:FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、ページ数。

PDF フォームはアプリケーション、アンケート、請求書、契約書などで広く使用されます。ユーザーがインタラクティブフィールドに入力した情報は、組織が保存、レポート作成、分析のために抽出する必要があります。

開始方法

  • Here または NuGet からアセンブリファイルをダウンロードしてください。
  • .NET プロジェクトで Documentize を参照します。
  • using Documentize; を追加します。
  • ライセンスを設定します License.Set("license.lic"); - オプション

PDF Extractor を選ぶ理由

  • レポート、プレゼンテーション、アーカイブなどで視覚コンテンツを管理する開発者や企業に最適です。
  • 高速かつ効率的な抽出でコンテンツ再利用が簡単です。
  • 複数の抽出モードで柔軟性を最大化。
  • .NET とのシームレスな統合でワークフローを簡素化。
  • 対応 OS:Windows 7‑11、Windows Server 2003‑2022、macOS (10.12+)、Linux。
  • 対応フレームワーク:4.0 から 8.0 まで。
  • 各種 Microsoft Visual Studio バージョンに対応。
  • 詳細で 高品質なドキュメント が提供されています。

PDF Extractor で画像を抽出する方法

  • 入力ファイルパスやその他必要設定を含む ImageExtractorOptions を構成します。
  • PdfExtractor.Extract を呼び出し、ExtractImagesOptions のインスタンスをパラメータとして渡します。
  • 抽出された画像は ResultContainer.ResultCollection から取得できます。


PDF からテキストを抽出する方法

  • ExtractTextOptions のインスタンスを作成し、入力 PDF を設定します。
  • PdfExtractor.Extract を呼び出し、ExtractTextOptions のインスタンスをパラメータとして渡し、抽出されたテキストにアクセスします。


PDF フィールドデータをエクスポートする方法

  • CSV へのエクスポート処理を設定するために ExtractFormDataToDsvOptions のインスタンスを作成します。
  • オプションに入力ファイルと出力ファイルを追加します。
  • PdfExtractor.Extract メソッドを呼び出し、オプションをパラメータとして渡します。


PDF からプロパティを抽出する方法


よくある質問

PDF Extractor とは何ですか?

PDF Extractor for .NET は、PDF ドキュメントから画像、テキスト、メタデータ、フォームデータを迅速かつ簡単に抽出できる強力なツールです。 .NET アプリケーションにシームレスに統合でき、PDF から視覚コンテンツにアクセスするためのユーザーフレンドリーなソリューションを提供します。

PDF Extractor for .NET を他の PDF 操作に使用できますか?

いいえ、このプラグインは PDF からの抽出専用です。他の PDF 関連タスクについては、Documentize ライブラリで提供されている他のプラグインを検討するか、ドキュメント処理のフル機能を活用してください。

なぜ PDF からテキスト/画像/メタデータ/フォームデータを抽出する必要があるのでしょうか?

このデータを抽出すると、文書の分析、レポート作成、AI への活用などが容易になります。

どのような出力フォーマットがサポートされていますか?

現在、このプラグインは画像を PNG 形式で抽出します。フォームデータは CSV 形式でエクスポートされます。JSON や XML など他の形式が必要な場合は、追加ツールを使用するか、出力をカスタマイズしてください。

スキャンした PDF からテキストを抽出できますか?

PDF がスキャン画像やテキスト画像を含む場合、編集可能な形式に変換するために OCR(光学文字認識)プロセスが必要になることがあります。

 日本語