PdfExtractorを使用してC#でPDFから画像、テキスト、データを抽出します。 PDFは異なるデバイス間でフォーマットを保持するため、文書を保存するために広く使用されています。しかし、PDFを扱う際には、再利用、分析、編集のために特定のコンテンツ(画像、テキスト、構造化データなど)を抽出する必要があります。
PDF Extractorの主な機能
PDFにはロゴ、チャート、写真、またはスキャン画像が頻繁に含まれています。これらの画像を抽出することで、完全なページをコピーすることなく再利用できます。
テキスト抽出により、PDFの読み取り可能なコンテンツを編集可能なテキストに変換できます。これは特に、書かれたコンテンツを再利用したり分析する必要がある場合に役立ちます。
PDFフォームは、アプリケーション、調査、請求書、契約などで広く使用されています。これらはユーザーがインタラクティブなフィールドに直接情報を入力できるようにします。しかし、フォームが記入されると、組織はしばしばそのデータをストレージ、報告、または分析のために抽出する必要があります。
PDFから画像、テキスト、および構造化データを抽出することで、静的ファイルがアクション可能なリソースに変わります。グラフィックスを再利用したり、書かれたコンテンツを編集したり、表を分析したりする際に、これらの機能が文書の潜在能力を最大限に引き出します。PDF抽出をマスターすることで、時間を節約し、ワークフローを改善し、作業するファイルからより深い洞察を得ることができます。
ImageExtractorOptions
を構成するExtractImagesOptions
のインスタンスをパラメータとしてPdfExtractor.ExtractImages
を呼び出すResultContainer.ResultCollection
を通じて抽出された画像にアクセスするTextExtractorOptions
のインスタンスを作成するTextExtractorOptions.AddInput
を使用して入力PDFドキュメントを追加するTextExtractorOptions
のインスタンスをパラメータとしてPdfExtractor.ExtractText
を呼び出すResultContainer.ResultCollection
を使用して抽出されたテキストにアクセスするExtractFormDataToDsvOptions
のインスタンスを作成するFormExporter.ExtractFormData
メソッドを呼び出すResultContainer.ResultCollection
を使用して結果にアクセスするPDF Extractor for .NETは、PDFドキュメントから画像、テキスト、またはPDFのフォームデータを迅速かつ簡単に抽出するために設計された強力なツールです。これは、PDFからの視覚的コンテンツにアクセスするためのユーザーフレンドリーなソリューションを提供し、あなたの.NETアプリケーションにシームレスに統合されます。
いいえ、このプラグインはPDFからの抽出専用です。他のPDF関連のタスクについては、Documentizeライブラリにある追加のプラグインを探索するか、ドキュメント処理のためのフル機能を利用してください。
このデータを抽出することは、文書を分析し、レポートを準備し、AIと連携するために役立ちます。
現在、このプラグインはPNG形式で画像を抽出します。フォームデータは特にCSV形式にエクスポートされます。JSONやXMLなど他の形式が必要な場合は、追加のツールを使用するか、出力を自分でカスタマイズする必要があります。
PDFがスキャンされたものであるか、テキストの画像を含んでいる場合、画像ベースのテキストを編集可能な形式に変換するためにOCR(光学式文字認識)プロセスが必要な場合があります。