1. Produtos
  2.   PDF Extractor

PDF Extractor in C#/.NET

Extraia imagens, texto, metadados e dados de formulário de documento PDF

Extractor de PDF

Extrair Dados de PDF em C# com PDF Extractor. PDFs são amplamente usados para armazenar documentos porque preservam a formatação em diferentes dispositivos. Entretanto, trabalhar com PDFs frequentemente requer a extração de conteúdo específico—como imagens, texto, metadados ou dados estruturados—para reutilização, análise ou edição. Ao dominar a extração de PDF, você pode economizar tempo, melhorar fluxos de trabalho e obter insights mais profundos dos arquivos com os quais trabalha.

Recursos Principais

PDFs frequentemente contêm logotipos, gráficos, fotos ou imagens digitalizadas. Extrair essas imagens permite reutilizá‑las sem precisar copiar páginas inteiras. Extração de Imagens em Alta Resolução – Recupere imagens exatamente como aparecem no seu PDF para uso profissional.

A extração de texto permite converter o conteúdo legível de um PDF em texto editável. Isso é especialmente útil quando você precisa reutilizar ou analisar conteúdo escrito. Escolha entre três modos de precisão para atender às suas necessidades:

Modo Puro — Mantém a formatação original para saída estruturada

Modo Bruto — Extrai texto simples sem formatação

Modo Plano — Remove caracteres especiais e formatação para texto limpo e minimalista

A extração de propriedades fornece informações sobre o documento PDF. Propriedades disponíveis que podem interessar: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Formulários PDF são amplamente usados em aplicativos, pesquisas, faturas e contratos. Eles permitem que os usuários insiram informações diretamente em campos interativos. Mas, depois que os formulários são preenchidos, as organizações frequentemente precisam extrair esses dados para armazenamento, relatórios ou análise.

Getting Started

Why Choose PDF Extractor

  • Ideal for developers and businesses managing visual content in reports, presentations, and archives.
  • Fast, efficient extraction for easy content reuse.
  • Multiple extraction modes for maximum flexibility.
  • Seamless .NET integration for simplified workflows.
  • Supported operating systems include Windows 7-11, and Windows Server 2003-2022, macOS (10.12+), and Linux.
  • Supported frameworks from 4.0 to 8.0.
  • Compatible with various Microsoft Visual Studio versions.
  • Detailed and high-quality documentation

How to Extract Images with PDF Extractor

  • Configure ImageExtractorOptions with the input file path and other necessary settings
  • Call PdfExtractor.Extract with an instance of ExtractImagesOptions as parameter
  • Access the extracted images through the ResultContainer.ResultCollection


How to Extract Text from PDF

  • Create instances of ExtractTextOptions and set input PDF
  • Call PdfExtractor.Extract with an instance of ExtractTextOptions as parameter and access the extracted text


How to Export PDF fields data

  • Create an instance of ExtractFormDataToDsvOptions to configure the process of exporting data to CSV
  • Add input and output files to the options
  • Call the PdfExtractor.Extract method, passing the options as a parameter


How to Extract Properties from PDF


Perguntas Frequentes

What is PDF Extractor?

PDF Extractor for .NET is a powerful tool designed to extract images, text, metadata from PDF documents, or Form Data in PDF quickly and easily. It seamlessly integrates into your .NET application, offering a user‑friendly solution for accessing visual content from PDFs.

Can I use PDF Extractor for .NET for other PDF operations?

No, this component is specifically for extraction from PDFs. For other PDF‑related tasks, you can explore the additional components available in Documentize library or leverage its full capabilities for document processing.

Why would I need to extract text/images/metadata/form data from a PDF?

Extracting this data can be useful for analyze documents, prepare reports, work with AI.

What types of output formats does it support?

Currently this component extracts images in PNG format. Forms data exports specifically into CSV format. If you need other formats like JSON or XML, you may need to use additional tools or customize the output yourself.

Can I extract text from scanned PDFs?

If the PDF is scanned or contains images of text, an OCR (Optical Character Recognition) process may be required to convert the image-based text into an editable format.

 Português