1. 製品
  2.   PDF エクストラクタ

PDF Extractor in C# .NET

Documentize .NET プラグインを使用して PDF ドキュメントから画像、テキスト、メタデータ、フォームデータを抽出します

PDF Extractor in C#

Extract Data from PDF in C# with PdfExtractor. PDF は、異なるデバイス間で書式を保持できるため、文書保存に広く利用されています。しかし、PDF から画像、テキスト、メタデータ、構造化データなど特定のコンテンツを抽出して再利用、分析、編集する必要があることが多いです。PDF 抽出をマスターすれば、作業時間の短縮、ワークフローの改善、ファイルからの深い洞察が得られます。

Key Features

PDF にはロゴ、チャート、写真、スキャン画像などが頻繁に含まれます。これらの画像を抽出すれば、ページ全体をコピーせずに再利用できます。

テキスト抽出により、PDF の可読コンテンツを編集可能なテキストに変換できます。書かれた内容を再利用したり分析したりする際に非常に便利です。

プロパティ抽出により、PDF ドキュメントに関する情報を取得できます。関心のあるプロパティ例: タイトル、作者、サブジェクト、キーワード、ページ数。

PDF フォームはアプリケーション、アンケート、請求書、契約書などで広く使用され、ユーザーがインタラクティブなフィールドに直接情報を入力できます。フォームが記入された後、そのデータを保存、レポート、分析のために抽出する必要があるケースが多くあります。

Getting Started

  • Get the assembly files from the downloads or fetch the package from NuGet to add Documentize directly to your workspace.
  • Reference Documentize in your .NET project
  • Set your license License.Set("license.lic"); Optional

Why Choose PDF Extractor

  • Ideal for developers and businesses managing visual content in reports, presentations, and archives.
  • Fast, efficient extraction for easy content reuse.
  • Multiple extraction modes for maximum flexibility.
  • Seamless .NET integration for simplified workflows.
  • Supported operating systems include Windows 7-11, and Windows Server 2003-2022, macOS (10.12+), and Linux.
  • Supported frameworks from 4.0 to 8.0.
  • Compatible with various Microsoft Visual Studio versions.
  • Detailed and high-quality documentation

How to Extract Images with PDF Extractor

  • Configure ImageExtractorOptions with the input file path and other necessary settings
  • Call PdfExtractor.ExtractImages with an instance of ExtractImagesOptions as parameter
  • Access the extracted images through the ResultContainer.ResultCollection

Via .NET


How to Extract Text from PDF

  • Create instances of TextExtractorOptions
  • Add input PDF documents using TextExtractorOptions.AddInput
  • Call PdfExtractor.ExtractText with an instance of TextExtractorOptions as parameter
  • Access the extracted text using ResultContainer.ResultCollection

Via .NET


How to export PDF data

  • Create an instance of ExtractFormDataToDsvOptions to configure the process of exporting data to CSV
  • Add input and output files to the options
  • Call the FormExporter.ExtractFormData method, passing the options as a parameter

Via .NET


How to Extract Properties from PDF

Via .NET


よくある質問

What is PDF Extractor?

PDF Extractor for .NET is a powerful tool designed to extract images, text, metadata from PDF documents, or Form Data in PDF quickly and easily. It seamlessly integrates into your .NET application, offering a user-friendly solution for accessing visual content from PDFs.

Can I use PDF Extractor for .NET for other PDF operations?

No, this plugin is specifically for extraction from PDFs. For other PDF-related tasks, you can explore the additional plugins available in Documentize library or leverage its full capabilities for document processing.

Why would I need to extract text/images/metadata/form data from a PDF?

Extracting this data can be useful for analyze documents, prepare reports, work with AI.

What types of output formats does it support?

Currently this plugin extracts images in PNG format. Forms data exports specifically into CSV format. If you need other formats like JSON or XML, you may need to use additional tools or customize the output yourself.

Can I extract text from scanned PDFs?

If the PDF is scanned or contains images of text, an OCR (Optical Character Recognition) process may be required to convert the image-based text into an editable format.

 日本語