1. Продукты
  2.   PDF Extractor

PDF Extractor в C#/.NET

Извлекайте изображения, текст, метаданные и данные форм из PDF‑документа

PDF Extractor

Извлечение данных из PDF на C# с помощью PDF Extractor. PDF‑файлы широко используются для хранения документов, поскольку сохраняют форматирование на разных устройствах. Однако работа с PDF часто требует извлечения конкретного контента — изображений, текста, метаданных или структурированных данных — для повторного использования, анализа или редактирования. Овладев извлечением из PDF, вы экономите время, улучшаете рабочие процессы и получаете более глубокие инсайты из файлов, с которыми работаете.

Основные возможности

PDF‑файлы часто содержат логотипы, диаграммы, фотографии или отсканированные изображения. Извлечение этих изображений позволяет повторно использовать их без необходимости копировать целые страницы. Извлечение изображений высокого разрешения – получайте изображения точно в том виде, в каком они находятся в вашем PDF, для профессионального использования.

Извлечение текста позволяет преобразовать читаемый контент PDF в редактируемый текст. Это особенно полезно, когда нужно переиспользовать или проанализировать письменный материал. Выберите один из трёх режимов точности, соответствующий вашим требованиям:

Pure Mode — Сохраняет оригинальное форматирование для структурированного вывода

Raw Mode — Извлекает чистый текст без форматирования

Flatten Mode — Убирает специальные символы и форматирование, оставляя минимальный чистый текст

Извлечение свойств предоставляет информацию о PDF‑документе. Доступные свойства, которые могут вас заинтересовать: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

PDF‑формы широко используются в приложениях, опросах, счетах и контрактах. Они позволяют пользователям вводить информацию непосредственно в интерактивные поля. После заполнения формы организации часто нуждаются в извлечении этих данных для хранения, отчётности или анализа.

Начало работы

  • Скачайте файлы сборки с Here или с NuGet.
  • Подключите Documentize в ваш .NET проект.
  • Добавьте using Documentize;.
  • Установите вашу лицензию License.Set("license.lic"); - Optional.

Почему выбрать PDF Extractor

  • Идеально для разработчиков и компаний, управляющих визуальным контентом в отчетах, презентациях и архивах.
  • Быстрое, эффективное извлечение для простого повторного использования контента.
  • Несколько режимов извлечения для максимальной гибкости.
  • Бесшовная интеграция с .NET для упрощения рабочих процессов.
  • Поддерживаемые операционные системы: Windows 7‑11, Windows Server 2003‑2022, macOS (10.12+) и Linux.
  • Поддерживаемые фреймворки от 4.0 до 8.0.
  • Совместимость с различными версиями Microsoft Visual Studio.
  • Подробная и high-quality documentation

Как извлечь изображения с помощью PDF Extractor

  • Настройте ImageExtractorOptions с указанием пути к входному файлу и другими необходимыми параметрами
  • Вызовите PdfExtractor.Extract с экземпляром ExtractImagesOptions в качестве параметра
  • Получите доступ к извлечённым изображениям через ResultContainer.ResultCollection


Как извлечь текст из PDF

  • Создайте экземпляры ExtractTextOptions и укажите входной PDF
  • Вызовите PdfExtractor.Extract с экземпляром ExtractTextOptions в качестве параметра и получите извлечённый текст


Как экспортировать данные полей PDF

  • Создайте экземпляр ExtractFormDataToDsvOptions для настройки процесса экспорта данных в CSV
  • Добавьте входные и выходные файлы в параметры
  • Вызовите метод PdfExtractor.Extract, передавая параметры


Как извлечь свойства из PDF


Часто задаваемые вопросы

Что такое PDF Extractor?

PDF Extractor for .NET — мощный инструмент, предназначенный для быстрого и простого извлечения изображений, текста, метаданных из PDF‑документов, а также данных форм в PDF. Он бесшовно интегрируется в ваше приложение .NET, предлагая удобное решение для доступа к визуальному контенту PDF‑файлов.

Могу ли я использовать PDF Extractor для .NET для других операций с PDF?

Нет, данный компонент предназначен исключительно для извлечения из PDF. Для других задач, связанных с PDF, вы можете изучить дополнительные компоненты библиотеки Documentize или воспользоваться её полными возможностями по обработке документов.

Зачем мне извлекать текст/изображения/метаданные/данные форм из PDF?

Извлечение этих данных может быть полезным для анализа документов, подготовки отчетов, работы с ИИ.

Какие типы форматов вывода поддерживаются?

В настоящее время компонент извлекает изображения в формате PNG. Данные форм экспортируются специально в формат CSV. Если вам нужны другие форматы, такие как JSON или XML, возможно, потребуется использовать дополнительные инструменты или самостоятельно настроить вывод.

Могу ли я извлечь текст из сканированных PDF?

Если PDF отсканирован или содержит изображения текста, может потребоваться процесс OCR (оптическое распознавание символов) для преобразования текстовых изображений в редактируемый формат.

 Русский