PDF Extractor

C# で PDF からデータを抽出する方法。 PDF はデバイス間で書式を保持できるため、文書保存に広く利用されています。しかし、PDF から特定のコンテンツ（画像、テキスト、メタデータ、構造化データなど）を抽出して再利用、分析、編集する必要があることがよくあります。PDF 抽出をマスターすれば、作業時間を短縮し、ワークフローを改善し、ファイルからより深い洞察を得ることができます。

主な機能

🔹 画像の抽出

PDF にはロゴ、チャート、写真、スキャン画像などが頻繁に含まれます。これらの画像を抽出すれば、ページ全体をコピーせずに再利用できます。高解像度画像抽出 – PDF に表示されている画像をそのまま取得し、プロフェッショナルに活用できます。

🔹 テキストの抽出

テキスト抽出により、PDF の可読コンテンツを編集可能なテキストに変換できます。書き起こしや分析が必要な場合に特に便利です。ニーズに合わせて 3 つの精度モードから選択できます：

Pure Mode — 構造化出力のために元の書式を保持
Raw Mode — 書式なしのプレーンテキストを抽出
Flatten Mode — 特殊文字と書式を除去し、シンプルなテキストに整形

🔹 プロパティ（メタデータ）の抽出

プロパティ抽出により PDF ドキュメントに関する情報を取得できます。利用可能なプロパティ例：FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、ページ数。

🔹 AcroForms からのデータエクスポート

PDF フォームはアプリケーション、アンケート、請求書、契約書などで広く使用されます。ユーザーがインタラクティブフィールドに入力した情報は、組織が保存、レポート作成、分析のために抽出する必要があります。

開始方法

Here または NuGet からアセンブリファイルをダウンロードしてください。
.NET プロジェクトで Documentize を参照します。
using Documentize; を追加します。
ライセンスを設定します License.Set("license.lic"); - オプション。

PDF Extractor を選ぶ理由

レポート、プレゼンテーション、アーカイブなどで視覚コンテンツを管理する開発者や企業に最適です。
高速かつ効率的な抽出でコンテンツ再利用が簡単です。
複数の抽出モードで柔軟性を最大化。
.NET とのシームレスな統合でワークフローを簡素化。
対応 OS：Windows 7‑11、Windows Server 2003‑2022、macOS (10.12+)、Linux。
対応フレームワーク：4.0 から 8.0 まで。
各種 Microsoft Visual Studio バージョンに対応。
詳細で高品質なドキュメントが提供されています。

PDF Extractor で画像を抽出する方法

入力ファイルパスやその他必要設定を含む ImageExtractorOptions を構成します。
PdfExtractor.Extract を呼び出し、ExtractImagesOptions のインスタンスをパラメータとして渡します。
抽出された画像は ResultContainer.ResultCollection から取得できます。

PDF からテキストを抽出する方法

ExtractTextOptions のインスタンスを作成し、入力 PDF を設定します。
PdfExtractor.Extract を呼び出し、ExtractTextOptions のインスタンスをパラメータとして渡し、抽出されたテキストにアクセスします。

PDF フィールドデータをエクスポートする方法

CSV へのエクスポート処理を設定するために ExtractFormDataToDsvOptions のインスタンスを作成します。
オプションに入力ファイルと出力ファイルを追加します。
PdfExtractor.Extract メソッドを呼び出し、オプションをパラメータとして渡します。

よくある質問

PDF Extractor とは何ですか？

PDF Extractor for .NET は、PDF ドキュメントから画像、テキスト、メタデータ、フォームデータを迅速かつ簡単に抽出できる強力なツールです。 .NET アプリケーションにシームレスに統合でき、PDF から視覚コンテンツにアクセスするためのユーザーフレンドリーなソリューションを提供します。

PDF Extractor for .NET を他の PDF 操作に使用できますか？

いいえ、このプラグインは PDF からの抽出専用です。他の PDF 関連タスクについては、Documentize ライブラリで提供されている他のプラグインを検討するか、ドキュメント処理のフル機能を活用してください。

なぜ PDF からテキスト/画像/メタデータ/フォームデータを抽出する必要があるのでしょうか？

このデータを抽出すると、文書の分析、レポート作成、AI への活用などが容易になります。

どのような出力フォーマットがサポートされていますか？

現在、このプラグインは画像を PNG 形式で抽出します。フォームデータは CSV 形式でエクスポートされます。JSON や XML など他の形式が必要な場合は、追加ツールを使用するか、出力をカスタマイズしてください。

スキャンした PDF からテキストを抽出できますか？

PDF がスキャン画像やテキスト画像を含む場合、編集可能な形式に変換するために OCR（光学文字認識）プロセスが必要になることがあります。

PDF Extractor in C#/.NET

PDF ドキュメントから画像、テキスト、メタデータ、フォームデータを抽出します