1. Продукты
  2.   PDF Extractor

PDF Extractor in C# .NET

Извлекайте изображения, текст, метаданные и данные форм из PDF‑документа с помощью Documentize

PDF Extractor in C#

Extract Data from PDF in C# with PdfExtractor. PDF‑файлы широко используются для хранения документов, потому что они сохраняют форматирование на разных устройствах. Тем не менее, работа с PDF часто требует извлечения определённого содержимого — изображений, текста, метаданных или структурированных данных — для повторного использования, анализа или редактирования. Овладев извлечением из PDF, вы сможете экономить время, улучшать рабочие процессы и получать более глубокие инсайты из файлов, с которыми работаете.

Key Features

PDF часто содержат логотипы, диаграммы, фотографии или сканированные изображения. Извлечение этих изображений позволяет повторно использовать их без необходимости копировать целые страницы. High-Resolution Image Extraction – Получайте изображения точно в том виде, в каком они находятся в вашем PDF, для профессионального использования.

Извлечение текста позволяет преобразовать читаемое содержимое PDF в редактируемый текст. Это особенно полезно, когда нужно повторно использовать или проанализировать письменный контент. Выберите один из трёх режимов точности, соответствующий вашим требованиям:

Pure Mode — Сохраняет оригинальное форматирование для структурированного вывода

Raw Mode — Извлекает простой текст без форматирования

Flatten Mode — Удаляет специальные символы и форматирование для чистого, минимального текста

Извлечение свойств позволяет получить информацию о PDF‑документе. Доступные свойства, которые могут быть вам интересны: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

PDF‑формы широко используются в приложениях, опросах, счетах‑фактурах и контрактах. Они позволяют пользователям вводить информацию напрямую в интерактивные поля. После заполнения форм организации часто нуждаются в извлечении этих данных для хранения, отчётности или анализа.

Getting Started

Why Choose PDF Extractor

  • Идеально подходит для разработчиков и компаний, управляющих визуальным контентом в отчётах, презентациях и архивах.
  • Быстрое, эффективное извлечение для лёгкого повторного использования контента.
  • Несколько режимов извлечения для максимальной гибкости.
  • Бесшовная интеграция с .NET для упрощения рабочих процессов.
  • Поддерживаемые операционные системы: Windows 7‑11, Windows Server 2003‑2022, macOS (10.12+), Linux.
  • Поддерживаемые фреймворки от 4.0 до 8.0.
  • Совместимость с различными версиями Microsoft Visual Studio.
  • Подробная и high-quality documentation

How to Extract Images with PDF Extractor

  • Configure ImageExtractorOptions with the input file path and other necessary settings
  • Call PdfExtractor.Extract with an instance of ExtractImagesOptions as parameter
  • Access the extracted images through the ResultContainer.ResultCollection

Via .NET


How to Extract Text from PDF

  • Create instances of ExtractTextOptions and set input PDF
  • Call PdfExtractor.Extract with an instance of ExtractTextOptions as parameter and access the extracted text

Via .NET


How to Export PDF fields data

  • Create an instance of ExtractFormDataToDsvOptions to configure the process of exporting data to CSV
  • Add input and output files to the options
  • Call the PdfExtractor.Extract method, passing the options as a parameter

Via .NET


How to Extract Properties from PDF

Via .NET


Часто задаваемые вопросы

What is PDF Extractor?

PDF Extractor for .NET is a powerful tool designed to extract images, text, metadata from PDF documents, or Form Data in PDF quickly and easily. It seamlessly integrates into your .NET application, offering a user-friendly solution for accessing visual content from PDFs.

Can I use PDF Extractor for .NET for other PDF operations?

No, this plugin is specifically for extraction from PDFs. For other PDF-related tasks, you can explore the additional plugins available in Documentize library or leverage its full capabilities for document processing.

Why would I need to extract text/images/metadata/form data from a PDF?

Extracting this data can be useful for analyze documents, prepare reports, work with AI.

What types of output formats does it support?

Currently this plugin extracts images in PNG format. Forms data exports specifically into CSV format. If you need other formats like JSON or XML, you may need to use additional tools or customize the output yourself.

Can I extract text from scanned PDFs?

If the PDF is scanned or contains images of text, an OCR (Optical Character Recognition) process may be required to convert the image-based text into an editable format.

 Русский