1. Продукты
  2.   PDF Extractor

PDF Extractor in C# .NET

Извлекайте изображения, текст и данные из формы в PDF-документе с использованием плагина Documentize .NET

PDF Extractor in C#

Извлечение изображений, текста или данных из формы в PDF на C# с помощью PdfExtractor. PDF-файлы широко используются для хранения документов, поскольку они сохраняют форматирование на различных устройствах. Однако работа с PDF часто требует извлечения конкретного содержимого — такого как изображения, текст или структурированные данные — для повторного использования, анализа или редактирования.

Ключевые возможности PDF Extractor

PDF-файлы часто содержат логотипы, диаграммы, фотографии или отсканированные изображения. Извлечение этих изображений позволяет вам использовать их повторно, не копируя целые страницы.

Извлечение текста позволяет преобразовать читаемое содержимое PDF в редактируемый текст. Это особенно полезно, когда вам нужно перепрофилировать или анализировать письменное содержание.

PDF-формы широко используются в приложениях, опросах, счетах-фактурах и контрактах. Они позволяют пользователям вводить информацию прямо в интерактивные поля. Но как только формы заполняются, организациям часто необходимо извлекать эти данные для хранения, отчетности или анализа.

Извлечение изображений, текста и структурированных данных из PDF-превращает статические файлы в полезные ресурсы. Независимо от того, повторно используете ли вы графику, редактируете письменное содержание или анализируете таблицы, эти функции открывают полный потенциал ваших документов. Овладев извлечением PDF, вы можете сэкономить время, улучшить рабочие процессы и получить более глубокие инсайты из файлов, с которыми вы работаете.

Как извлечь изображения с помощью PDF Extractor

  • Включите Documentize в ваш проект .NET
  • Установите ваши лицензионные ключи
  • Настройте ImageExtractorOptions с путем к входному файлу и другими необходимыми настройками
  • Вызовите PdfExtractor.ExtractImages с экземпляром ExtractImagesOptions в качестве параметра
  • Выполните процесс извлечения изображений с помощью плагина
  • Получите доступ к извлеченным изображениям через ResultContainer.ResultCollection

С чего начать

  • Получите файлы сборки из загрузок или скачайте пакет из NuGet, чтобы добавить Documentize прямо в ваше рабочее пространство.
  • Идеально подходит для разработчиков и компаний, управляющих визуальным контентом в отчетах, презентациях и архивах.


Как извлечь текст из PDF через .NET

  • Включите Documentize в ваш проект
  • Установите ваши лицензионные ключи
  • Создайте экземпляры TextExtractorOptions
  • Добавьте входные PDF-документы с помощью TextExtractorOptions.AddInput
  • Вызовите PdfExtractor.ExtractText с экземпляром TextExtractorOptions в качестве параметра
  • Получите доступ к извлеченному тексту с помощью ResultContainer.ResultCollection

Почему выбрать PDF Extractor?

  • Быстрое и эффективное извлечение текста для легкого повторного использования контента.
  • Множество режимов извлечения для максимальной гибкости.
  • Бесшовная интеграция с .NET для упрощения рабочих процессов.
  • Повышенная доступность за счет облегчения редактирования, совместного использования или архивирования контента.
  • Подробная и высококачественная документация


Как экспортировать данные PDF

  • Включите Documentize в ваш проект
  • Установите ваши лицензионные ключи
  • Создайте экземпляр ExtractFormDataToDsvOptions, чтобы настроить процесс экспорта данных в CSV
  • Добавьте входные и выходные файлы в параметры
  • Вызовите метод FormExporter.ExtractFormData, передавая параметры в качестве аргумента
  • Получите результат с помощью ResultContainer.ResultCollection

Поддерживаемые системы

  • Поддерживаемые операционные системы включают Windows 7-11 и Windows Server 2003-2022, macOS (10.12+) и Linux.
  • Поддерживаемые фреймворки от 4.0 до 8.0.
  • Совместимость с различными версиями Microsoft Visual Studio.


Часто задаваемые вопросы

Что такое PDF Extractor?

PDF Extractor для .NET — это мощный инструмент, предназначенный для быстрого и простого извлечения изображений, текста из PDF документов или данных форм в PDF. Он бесшовно интегрируется в ваше .NET приложение, предлагая удобное решение для доступа к визуальному контенту из PDF.

Могу ли я использовать PDF Extractor для .NET для других операций с PDF?

Нет, этот плагин специально предназначен для извлечения из PDF. Для других задач, связанных с PDF, вы можете изучить дополнительные плагины, доступные в библиотеке Documentize, или использовать его полные возможности для обработки документов.

Зачем мне нужно извлекать текст/изображения/данные формы из PDF?

Извлечение этих данных может быть полезно для анализа документов, подготовки отчетов, работы с ИИ.

Какие форматы вывода он поддерживает?

В данный момент этот плагин извлекает изображения в формате PNG. Данные форм экспортируются специально в формат CSV. Если вам нужны другие форматы, такие как JSON или XML, возможно, вам потребуется использовать дополнительные инструменты или настроить вывод самостоятельно.

Могу ли я извлечь текст из отсканированных PDF?

Если PDF отсканирован или содержит изображения текста, может потребоваться процесс OCR (оптическое распознавание символов) для преобразования текстовых изображений в редактируемый формат.

 Русский