PDF Extractor

Извлечение данных из PDF на C# с помощью PDF Extractor. PDF‑файлы широко используются для хранения документов, поскольку сохраняют форматирование на разных устройствах. Однако работа с PDF часто требует извлечения конкретного контента — изображений, текста, метаданных или структурированных данных — для повторного использования, анализа или редактирования. Овладев извлечением из PDF, вы экономите время, улучшаете рабочие процессы и получаете более глубокие инсайты из файлов, с которыми работаете.

Основные возможности

🔹 Извлечение изображений

PDF‑файлы часто содержат логотипы, диаграммы, фотографии или отсканированные изображения. Извлечение этих изображений позволяет повторно использовать их без необходимости копировать целые страницы. Извлечение изображений высокого разрешения – получайте изображения точно в том виде, в каком они находятся в вашем PDF, для профессионального использования.

🔹 Извлечение текста

Извлечение текста позволяет преобразовать читаемый контент PDF в редактируемый текст. Это особенно полезно, когда нужно переиспользовать или проанализировать письменный материал. Выберите один из трёх режимов точности, соответствующий вашим требованиям:

Pure Mode — Сохраняет оригинальное форматирование для структурированного вывода

Raw Mode — Извлекает чистый текст без форматирования

Flatten Mode — Убирает специальные символы и форматирование, оставляя минимальный чистый текст

🔹 Извлечение свойств (метаданных)

Извлечение свойств предоставляет информацию о PDF‑документе. Доступные свойства, которые могут вас заинтересовать: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

🔹 Экспорт данных из AcroForms

PDF‑формы широко используются в приложениях, опросах, счетах и контрактах. Они позволяют пользователям вводить информацию непосредственно в интерактивные поля. После заполнения формы организации часто нуждаются в извлечении этих данных для хранения, отчётности или анализа.

Начало работы

Скачайте файлы сборки с Here или с NuGet.
Подключите Documentize в ваш .NET проект.
Добавьте using Documentize;.
Установите вашу лицензию License.Set("license.lic"); - Optional.

Почему выбрать PDF Extractor

Идеально для разработчиков и компаний, управляющих визуальным контентом в отчетах, презентациях и архивах.
Быстрое, эффективное извлечение для простого повторного использования контента.
Несколько режимов извлечения для максимальной гибкости.
Бесшовная интеграция с .NET для упрощения рабочих процессов.
Поддерживаемые операционные системы: Windows 7‑11, Windows Server 2003‑2022, macOS (10.12+) и Linux.
Поддерживаемые фреймворки от 4.0 до 8.0.
Совместимость с различными версиями Microsoft Visual Studio.
Подробная и high-quality documentation

Как извлечь изображения с помощью PDF Extractor

Настройте ImageExtractorOptions с указанием пути к входному файлу и другими необходимыми параметрами
Вызовите PdfExtractor.Extract с экземпляром ExtractImagesOptions в качестве параметра
Получите доступ к извлечённым изображениям через ResultContainer.ResultCollection

Часто задаваемые вопросы

Что такое PDF Extractor?

PDF Extractor for .NET — мощный инструмент, предназначенный для быстрого и простого извлечения изображений, текста, метаданных из PDF‑документов, а также данных форм в PDF. Он бесшовно интегрируется в ваше приложение .NET, предлагая удобное решение для доступа к визуальному контенту PDF‑файлов.

Могу ли я использовать PDF Extractor для .NET для других операций с PDF?

Нет, данный компонент предназначен исключительно для извлечения из PDF. Для других задач, связанных с PDF, вы можете изучить дополнительные компоненты библиотеки Documentize или воспользоваться её полными возможностями по обработке документов.

Зачем мне извлекать текст/изображения/метаданные/данные форм из PDF?

Извлечение этих данных может быть полезным для анализа документов, подготовки отчетов, работы с ИИ.

Какие типы форматов вывода поддерживаются?

В настоящее время компонент извлекает изображения в формате PNG. Данные форм экспортируются специально в формат CSV. Если вам нужны другие форматы, такие как JSON или XML, возможно, потребуется использовать дополнительные инструменты или самостоятельно настроить вывод.

Могу ли я извлечь текст из сканированных PDF?

Если PDF отсканирован или содержит изображения текста, может потребоваться процесс OCR (оптическое распознавание символов) для преобразования текстовых изображений в редактируемый формат.

PDF Extractor в C#/.NET

Извлекайте изображения, текст, метаданные и данные форм из PDF‑документа