1. Produtos
  2.   PDF Extractor

Extractor de PDF em C# .NET

Extraia imagens, texto, metadados e dados de formulários em documentos PDF usando o Plugin Documentize .NET

Extractor de PDF em C#

Extrair Dados de PDF em C# com PdfExtractor. Os PDFs são amplamente usados para armazenar documentos porque preservam a formatação em diferentes dispositivos. Entretanto, trabalhar com PDFs frequentemente requer a extração de conteúdo específico—como imagens, texto, metadados ou dados estruturados—para reutilização, análise ou edição. Ao dominar a extração de PDFs, você pode economizar tempo, melhorar fluxos de trabalho e obter insights mais profundos dos arquivos com os quais trabalha.

Principais Recursos

PDFs frequentemente contêm logotipos, gráficos, fotos ou imagens digitalizadas. Extrair essas imagens permite reutilizá‑las sem precisar copiar páginas inteiras.

A extração de texto permite converter o conteúdo legível de um PDF em texto editável. Isso é especialmente útil quando você precisa reutilizar ou analisar o conteúdo escrito.

A extração de propriedades permite obter informações sobre o documento PDF. Propriedades disponíveis que podem interessá‑lo: Título, Autor, Assunto, Palavras‑chave, Número de Páginas.

Formulários PDF são amplamente usados em aplicativos, pesquisas, faturas e contratos. Eles permitem que os usuários insiram informações diretamente em campos interativos. Mas, uma vez preenchidos, as organizações frequentemente precisam extrair esses dados para armazenamento, relatórios ou análise.

Começando

  • Obtenha os arquivos de assembly dos downloads ou recupere o pacote de NuGet para adicionar o Documentize diretamente ao seu workspace.
  • Referencie o Documentize no seu projeto .NET
  • Defina sua licença License.Set("license.lic"); Opcional

Por que escolher o PDF Extractor

  • Ideal para desenvolvedores e empresas que gerenciam conteúdo visual em relatórios, apresentações e arquivos.
  • Extração rápida e eficiente para fácil reutilização de conteúdo.
  • Múltiplos modos de extração para máxima flexibilidade.
  • Integração .NET perfeita para fluxos de trabalho simplificados.
  • Sistemas operacionais suportados incluem Windows 7‑11, Windows Server 2003‑2022, macOS (10.12+), e Linux.
  • Frameworks suportados de 4.0 a 8.0.
  • Compatível com várias versões do Microsoft Visual Studio.
  • Documentação detalhada e high-quality documentation

Como extrair imagens com o PDF Extractor

  • Configure ImageExtractorOptions com o caminho do arquivo de entrada e outras configurações necessárias
  • Chame PdfExtractor.ExtractImages com uma instância de ExtractImagesOptions como parâmetro
  • Acesse as imagens extraídas através de ResultContainer.ResultCollection

Via .NET


Como extrair texto de PDF

  • Crie instâncias de TextExtractorOptions
  • Adicione documentos PDF de entrada usando TextExtractorOptions.AddInput
  • Chame PdfExtractor.ExtractText com uma instância de TextExtractorOptions como parâmetro
  • Acesse o texto extraído usando ResultContainer.ResultCollection

Via .NET


Como exportar dados de PDF

  • Crie uma instância de ExtractFormDataToDsvOptions para configurar o processo de exportação de dados para CSV
  • Adicione arquivos de entrada e saída às opções
  • Chame o método FormExporter.ExtractFormData, passando as opções como parâmetro

Via .NET


Como extrair propriedades de PDF

Via .NET


Perguntas Frequentes

O que é o PDF Extractor?

O PDF Extractor for .NET é uma ferramenta poderosa projetada para extrair imagens, texto e metadados de documentos PDF, ou dados de formulário em PDF de forma rápida e fácil. Ele se integra perfeitamente à sua aplicação .NET, oferecendo uma solução amigável para acessar conteúdo visual de PDFs.

Posso usar o PDF Extractor for .NET para outras operações de PDF?

Não, este plugin é especificamente para extração de PDFs. Para outras tarefas relacionadas a PDFs, você pode explorar os plugins adicionais disponíveis na biblioteca Documentize ou aproveitar todo o seu potencial para o processamento de documentos.

Por que eu precisaria extrair texto/imagens/metadados/dados de formulário de um PDF?

Extrair esses dados pode ser útil para analisar documentos, preparar relatórios e trabalhar com IA.

Quais tipos de formatos de saída ele suporta?

Atualmente, este plugin extrai imagens no formato PNG. Dados de formulários são exportados especificamente para o formato CSV. Se você precisar de outros formatos, como JSON ou XML, pode ser necessário usar ferramentas adicionais ou personalizar a saída você mesmo.

Posso extrair texto de PDFs digitalizados?

Se o PDF for digitalizado ou contiver imagens de texto, pode ser necessário um processo de OCR (Reconhecimento Óptico de Caracteres) para converter o texto baseado em imagem em um formato editável.

 Português