1. Продукты
  2.   PDF Экстрактор

PDF Экстрактор в C# .NET

Извлекайте изображения, текст, метаданные и данные из форм в PDF‑документе с помощью плагина Documentize .NET

PDF Экстрактор в C#

Извлечение данных из PDF в C# с помощью PdfExtractor. PDF широко используется для хранения документов, поскольку сохраняет форматирование на разных устройствах. Однако работа с PDF часто требует извлечения определённого содержимого — изображений, текста, метаданных или структурированных данных — для повторного использования, анализа или редактирования. Освоив извлечение из PDF, вы сможете экономить время, улучшать процессы и получать более глубокие инсайты из файлов, с которыми работаете.

Ключевые возможности

PDF часто содержат логотипы, диаграммы, фотографии или отсканированные изображения. Извлечение этих изображений позволяет повторно использовать их без необходимости копировать целые страницы.

Извлечение текста позволяет преобразовать читаемое содержимое PDF в редактируемый текст. Это особенно полезно, когда нужно перенести или проанализировать написанное содержание.

Извлечение свойств предоставляет информацию о документе PDF. Доступные свойства, которые могут вас заинтересовать: Title, Author, Subject, Keywords, Number of Pages.

PDF‑формы широко используются в приложениях, опросах, счетах и контрактах. Они позволяют пользователям вводить информацию непосредственно в интерактивные поля. После заполнения форм организации часто нуждаются в извлечении этих данных для хранения, отчётности или анализа.

Начало работы

  • Получите файлы сборки из загрузок или загрузите пакет с NuGet, чтобы добавить Documentize напрямую в рабочее пространство.
  • Добавьте ссылку на Documentize в ваш .NET‑проект
  • Установите вашу лицензию License.Set("license.lic"); Необязательно

Почему выбирают PDF Экстрактор

  • Идеально для разработчиков и компаний, работающих с визуальным контентом в отчётах, презентациях и архивах.
  • Быстрое и эффективное извлечение для лёгкого повторного использования контента.
  • Несколько режимов извлечения для максимальной гибкости.
  • Бесшовная интеграция с .NET для упрощения рабочих процессов.
  • Поддерживаемые операционные системы: Windows 7‑11, Windows Server 2003‑2022, macOS (10.12+), Linux.
  • Поддерживаемые фреймворки от 4.0 до 8.0.
  • Совместимо с различными версиями Microsoft Visual Studio.
  • Подробная и высококачественная документация

Как извлечь изображения с помощью PDF Экстрактор

  • Настройте ImageExtractorOptions с указанием пути к входному файлу и другими необходимыми параметрами
  • Вызовите PdfExtractor.ExtractImages, передав экземпляр ExtractImagesOptions в качестве параметра
  • Получите извлечённые изображения через ResultContainer.ResultCollection

Через .NET


Как извлечь текст из PDF

  • Создайте экземпляры TextExtractorOptions
  • Добавьте входные PDF‑документы с помощью TextExtractorOptions.AddInput
  • Вызовите PdfExtractor.ExtractText, передав экземпляр TextExtractorOptions в качестве параметра
  • Получите извлечённый текст через ResultContainer.ResultCollection

Через .NET


Как экспортировать данные из PDF

  • Создайте экземпляр ExtractFormDataToDsvOptions для настройки процесса экспорта данных в CSV
  • Добавьте входные и выходные файлы в параметры
  • Вызовите метод FormExporter.ExtractFormData, передавая в него параметры

Через .NET


Как извлечь свойства из PDF

Через .NET


Часто задаваемые вопросы

Что такое PDF Экстрактор?

PDF Экстрактор для .NET — мощный инструмент, предназначенный для быстрого и простого извлечения изображений, текста, метаданных из PDF‑документов, а также данных форм в PDF. Он бесшовно интегрируется в ваше .NET‑приложение, предоставляя удобное решение для доступа к визуальному контенту PDF‑файлов.

Можно ли использовать PDF Экстрактор для .NET для других операций с PDF?

Нет, этот плагин предназначен исключительно для извлечения данных из PDF. Для других задач, связанных с PDF, вы можете изучить дополнительные плагины, доступные в библиотеке Documentize, или воспользоваться её полной функциональностью для обработки документов.

Зачем может понадобиться извлекать текст/изображения/метаданные/данные формы из PDF?

Извлечение этих данных может быть полезным для анализа документов, подготовки отчётов, работы с ИИ.

Какие форматы вывода поддерживаются?

В данный момент плагин извлекает изображения в формате PNG. Данные форм экспортируются в формат CSV. Если нужны другие форматы, такие как JSON или XML, возможно потребуется использовать дополнительные инструменты или настроить вывод самостоятельно.

Можно ли извлекать текст из сканированных PDF?

Если PDF отсканирован или содержит изображения текста, может потребоваться процесс OCR (оптическое распознавание символов) для преобразования текста из изображений в редактируемый формат.

 Русский