C# で PdfExtractor を使用した PDF データ抽出。 PDF は異なるデバイス間で書式を保持できるため、文書保存に広く利用されています。しかし、PDF から画像、テキスト、メタデータ、構造化データなど特定のコンテンツを抽出して再利用、分析、編集する必要があることが多いです。PDF 抽出をマスターすれば、作業時間を短縮し、ワークフローを改善し、ファイルからより深い洞察を得られます。
主な機能
PDF にはロゴ、チャート、写真、スキャン画像などが頻繁に含まれます。これらの画像を抽出すれば、ページ全体をコピーせずに再利用できます。 高解像度画像抽出 – PDF に表示されている画像をそのまま取得し、プロフェッショナルな用途に活用できます。
テキスト抽出により、PDF の可読コンテンツを編集可能なテキストに変換できます。書き直しや分析に特に便利です。 ニーズに合わせて 3 つの精度モードから選択できます:
Pure Mode — 構造化された出力のために元の書式を保持
Raw Mode — 書式なしのプレーンテキストを抽出
Flatten Mode — 特殊文字と書式を除去し、シンプルで最小限のテキストに
プロパティ抽出により PDF ドキュメントに関する情報を取得できます。主なプロパティ例:FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、ページ数。
PDF フォームはアプリケーション、アンケート、請求書、契約書などで広く利用されています。ユーザーが入力した情報は、保存、レポート作成、分析のために抽出する必要があります。
using Documentize; を追加します。License.Set("license.lic"); - オプション。ImageExtractorOptions を構成します。ExtractImagesOptions のインスタンスをパラメータとして PdfExtractor.Extract を呼び出します。ResultContainer.ResultCollection から抽出された画像にアクセスします。ExtractTextOptions のインスタンスを作成し、入力 PDF を設定します。ExtractTextOptions をパラメータとして PdfExtractor.Extract を呼び出し、抽出されたテキストにアクセスします。ExtractFormDataToDsvOptions のインスタンスを作成します。PdfExtractor.Extract メソッドを呼び出します。PDF エクストラクタ for .NET は、PDF ドキュメントから画像、テキスト、メタデータ、またはフォームデータを迅速かつ簡単に抽出できる強力なツールです。 .NET アプリケーションにシームレスに統合され、PDF から視覚コンテンツにアクセスするためのユーザーフレンドリーなソリューションを提供します。
いいえ、このプラグインは PDF からの抽出専用です。他の PDF 関連タスクについては、Documentize ライブラリで提供されている他のプラグインを参照するか、ドキュメント処理のフル機能をご活用ください。
これらのデータを抽出することで、文書の分析、レポート作成、AI との連携など多様な用途に活用できます。
現在、このプラグインは画像を PNG 形式で抽出し、フォームデータは CSV 形式でエクスポートします。JSON や XML など他の形式が必要な場合は、追加ツールの使用または出力のカスタマイズが必要です。
PDF がスキャン画像やテキスト画像で構成されている場合、OCR(光学文字認識)プロセスを実行して、画像ベースのテキストを編集可能な形式に変換する必要があります。