Extrator de PDF

Extract Data from PDF in C# with PDF Extractor. PDFs are widely used for storing documents because they preserve formatting across different devices. However, working with PDFs often requires extracting specific content—such as images, text, metadata, or structured data — for reuse, analysis, or editing. By mastering PDF extraction, you can save time, improve workflows, and gain deeper insights from the files you work with.

Key Features

🔹 Extract Images

PDFs frequently contain logos, charts, photos, or scanned images. Extracting these images allows you to reuse them without needing to copy entire pages. High-Resolution Image Extraction – Retrieve images exactly as they appear in your PDF for professional use.

🔹 Extract Text

Text extraction lets you convert the readable content of a PDF into editable text. This is especially helpful when you need to repurpose or analyze written content. Choose from three precision modes to suit your needs:

Pure Mode — Retains original formatting for structured output

Raw Mode — Extracts plain text without formatting

Flatten Mode — Removes special characters and formatting for clean, minimal text

🔹 Extract Properties (Metadata)

Properties extraction lets you information about PDF document. Available properties that may interest you: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

🔹 Export data from AcroForms

PDF forms are widely used in applications, surveys, invoices, and contracts. They allow users to enter information directly into interactive fields. But once the forms are filled out, organizations often need to extract that data for storage, reporting, or analysis.

Começando

Baixe os arquivos de assembly de Here ou NuGet.
Referencie Documentize em seu projeto .NET.
Adicione using Documentize;.
Defina sua licença License.Set("license.lic"); - Opcional.

Por que escolher o PDF Extractor

Ideal para desenvolvedores e empresas que gerenciam conteúdo visual em relatórios, apresentações e arquivos.
Extração rápida e eficiente para fácil reutilização de conteúdo.
Múltiplos modos de extração para máxima flexibilidade.
Integração .NET perfeita para fluxos de trabalho simplificados.
Sistemas operacionais suportados incluem Windows 7-11, Windows Server 2003-2022, macOS (10.12+), e Linux.
Frameworks suportados de 4.0 a 8.0.
Compatível com várias versões do Microsoft Visual Studio.
Documentação detalhada e high-quality documentation

Como extrair imagens com o PDF Extractor

Configure ImageExtractorOptions com o caminho do arquivo de entrada e outras configurações necessárias
Chame PdfExtractor.Extract passando uma instância de ExtractImagesOptions como parâmetro
Acesse as imagens extraídas através de ResultContainer.ResultCollection

Como extrair texto de PDF

Crie instâncias de ExtractTextOptions e defina o PDF de entrada
Chame PdfExtractor.Extract com uma instância de ExtractTextOptions como parâmetro e acesse o texto extraído

Como exportar dados de campos PDF

Crie uma instância de ExtractFormDataToDsvOptions para configurar o processo de exportação de dados para CSV
Adicione arquivos de entrada e saída às opções
Chame o método PdfExtractor.Extract, passando as opções como parâmetro

Perguntas Frequentes

O que é o PDF Extractor?

O PDF Extractor para .NET é uma ferramenta poderosa projetada para extrair imagens, texto, metadados de documentos PDF ou dados de formulário em PDF de forma rápida e fácil. Ela se integra perfeitamente ao seu aplicativo .NET, oferecendo uma solução amigável para acessar conteúdo visual de PDFs.

Posso usar o PDF Extractor para .NET em outras operações de PDF?

Não, este plugin é especificamente para extração de PDFs. Para outras tarefas relacionadas a PDF, você pode explorar os plugins adicionais disponíveis na biblioteca Documentize ou aproveitar todo o seu potencial para o processamento de documentos.

Por que eu precisaria extrair texto/imagens/metadados/dados de formulário de um PDF?

Extrair esses dados pode ser útil para analisar documentos, preparar relatórios e trabalhar com IA.

Que tipos de formatos de saída ele suporta?

Atualmente, este plugin extrai imagens no formato PNG. Dados de formulários são exportados especificamente para o formato CSV. Se você precisar de outros formatos como JSON ou XML, pode ser necessário usar ferramentas adicionais ou personalizar a saída você mesmo.

Posso extrair texto de PDFs escaneados?

Se o PDF for escaneado ou contiver imagens de texto, pode ser necessário um processo de OCR (Reconhecimento Óptico de Caracteres) para converter o texto baseado em imagem em um formato editável.

PDF Extractor em C#/.NET

Extraia imagens, texto, metadados e dados de formulário de documento PDF