1. 製品
  2.   PDF エクストラクタ

PDF Extractor in C# .NET

Documentize を使用して PDF ドキュメントから画像、テキスト、メタデータ、フォームデータを抽出する

PDF Extractor in C#

C# で PdfExtractor を使用した PDF データ抽出。 PDF は異なるデバイス間で書式を保持できるため、文書保存に広く利用されています。しかし、PDF から画像、テキスト、メタデータ、構造化データなど特定のコンテンツを抽出して再利用、分析、編集する必要があることが多いです。PDF 抽出をマスターすれば、作業時間を短縮し、ワークフローを改善し、ファイルからより深い洞察を得られます。

主な機能

PDF にはロゴ、チャート、写真、スキャン画像などが頻繁に含まれます。これらの画像を抽出すれば、ページ全体をコピーせずに再利用できます。 高解像度画像抽出 – PDF に表示されている画像をそのまま取得し、プロフェッショナルな用途に活用できます。

テキスト抽出により、PDF の可読コンテンツを編集可能なテキストに変換できます。書き直しや分析に特に便利です。 ニーズに合わせて 3 つの精度モードから選択できます:

Pure Mode — 構造化された出力のために元の書式を保持
Raw Mode — 書式なしのプレーンテキストを抽出
Flatten Mode — 特殊文字と書式を除去し、シンプルで最小限のテキストに

プロパティ抽出により PDF ドキュメントに関する情報を取得できます。主なプロパティ例:FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、ページ数。

PDF フォームはアプリケーション、アンケート、請求書、契約書などで広く利用されています。ユーザーが入力した情報は、保存、レポート作成、分析のために抽出する必要があります。

開始方法

  • Here または NuGet からアセンブリファイルをダウンロードします。
  • .NET プロジェクトで Documentize を参照します。
  • using Documentize; を追加します。
  • ライセンスを設定します License.Set("license.lic"); - オプション

PDF エクストラクタを選ぶ理由

  • レポート、プレゼンテーション、アーカイブなどで視覚コンテンツを管理する開発者や企業に最適。
  • 高速で効率的な抽出により、コンテンツの再利用が容易。
  • 柔軟性を高める複数の抽出モードを提供。
  • シームレスな .NET 統合でワークフローを簡素化。
  • 対応 OS: Windows 7‑11、Windows Server 2003‑2022、macOS (10.12+)、Linux。
  • 対応フレームワーク: 4.0 から 8.0 まで。
  • 様々な Microsoft Visual Studio バージョンと互換性あり。
  • 詳細かつ high-quality documentation

PDF エクストラクタで画像を抽出する方法

  • 入力ファイルパスなど必要な設定を持つ ImageExtractorOptions を構成します。
  • ExtractImagesOptions のインスタンスをパラメータとして PdfExtractor.Extract を呼び出します。
  • ResultContainer.ResultCollection から抽出された画像にアクセスします。

Via .NET


PDF からテキストを抽出する方法

  • ExtractTextOptions のインスタンスを作成し、入力 PDF を設定します。
  • ExtractTextOptions をパラメータとして PdfExtractor.Extract を呼び出し、抽出されたテキストにアクセスします。

Via .NET


PDF フィールドデータをエクスポートする方法

  • CSV へエクスポートするプロセスを設定するために ExtractFormDataToDsvOptions のインスタンスを作成します。
  • オプションに入力ファイルと出力ファイルを追加します。
  • オプションを引数として PdfExtractor.Extract メソッドを呼び出します。

Via .NET


PDF からプロパティを抽出する方法

Via .NET


よくある質問

PDF エクストラクタとは何ですか?

PDF エクストラクタ for .NET は、PDF ドキュメントから画像、テキスト、メタデータ、またはフォームデータを迅速かつ簡単に抽出できる強力なツールです。 .NET アプリケーションにシームレスに統合され、PDF から視覚コンテンツにアクセスするためのユーザーフレンドリーなソリューションを提供します。

PDF エクストラクタ for .NET を他の PDF 操作に使用できますか?

いいえ、このプラグインは PDF からの抽出専用です。他の PDF 関連タスクについては、Documentize ライブラリで提供されている他のプラグインを参照するか、ドキュメント処理のフル機能をご活用ください。

なぜ PDF からテキスト/画像/メタデータ/フォームデータを抽出する必要があるのでしょうか?

これらのデータを抽出することで、文書の分析、レポート作成、AI との連携など多様な用途に活用できます。

どのような出力フォーマットに対応していますか?

現在、このプラグインは画像を PNG 形式で抽出し、フォームデータは CSV 形式でエクスポートします。JSON や XML など他の形式が必要な場合は、追加ツールの使用または出力のカスタマイズが必要です。

スキャンした PDF からテキストを抽出できますか?

PDF がスキャン画像やテキスト画像で構成されている場合、OCR(光学文字認識)プロセスを実行して、画像ベースのテキストを編集可能な形式に変換する必要があります。

 日本語