Extract Data from PDF in C# with PdfExtractor. PDFs são amplamente usados para armazenar documentos porque preservam a formatação entre diferentes dispositivos. No entanto, trabalhar com PDFs frequentemente requer a extração de conteúdo específico — como imagens, texto, metadados ou dados estruturados — para reutilização, análise ou edição. Ao dominar a extração de PDFs, você pode economizar tempo, melhorar fluxos de trabalho e obter insights mais profundos dos arquivos com os quais trabalha.
Key Features
PDFs frequentemente contêm logotipos, gráficos, fotos ou imagens escaneadas. Extrair essas imagens permite reutilizá‑las sem precisar copiar páginas inteiras. Extração de Imagens em Alta Resolução – Recupere imagens exatamente como aparecem no seu PDF para uso profissional.
A extração de texto permite converter o conteúdo legível de um PDF em texto editável. Isso é especialmente útil quando você precisa reaproveitar ou analisar o conteúdo escrito. Escolha entre três modos de precisão para atender às suas necessidades:
Pure Mode — Mantém a formatação original para saída estruturada
Raw Mode — Extrai texto simples sem formatação
Flatten Mode — Remove caracteres especiais e formatação para um texto limpo e mínimo
A extração de propriedades fornece informações sobre o documento PDF. Propriedades disponíveis que podem interessar: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
Formulários PDF são amplamente usados em aplicativos, pesquisas, faturas e contratos. Eles permitem que os usuários insiram informações diretamente em campos interativos. Mas, uma vez preenchidos, as organizações frequentemente precisam extrair esses dados para armazenamento, relatórios ou análise.
using Documentize;.License.Set("license.lic"); - Optional.ImageExtractorOptions with the input file path and other necessary settingsPdfExtractor.Extract with an instance of ExtractImagesOptions as parameterResultContainer.ResultCollectionExtractTextOptions and set input PDFPdfExtractor.Extract with an instance of ExtractTextOptions as parameter and access the extracted textExtractFormDataToDsvOptions to configure the process of exporting data to CSVPdfExtractor.Extract method, passing the options as a parameterPDF Extractor for .NET is a powerful tool designed to extract images, text, metadata from PDF documents, or Form Data in PDF quickly and easily. It seamlessly integrates into your .NET application, offering a user-friendly solution for accessing visual content from PDFs.
No, this plugin is specifically for extraction from PDFs. For other PDF-related tasks, you can explore the additional plugins available in Documentize library or leverage its full capabilities for document processing.
Extracting this data can be useful for analyze documents, prepare reports, work with AI.
Currently this plugin extracts images in PNG format. Forms data exports specifically into CSV format. If you need other formats like JSON or XML, you may need to use additional tools or customize the output yourself.
If the PDF is scanned or contains images of text, an OCR (Optical Character Recognition) process may be required to convert the image-based text into an editable format.