Извлечение данных из PDF на C# с помощью PDF Extractor. PDF‑файлы широко используются для хранения документов, поскольку сохраняют форматирование на разных устройствах. Однако работа с PDF часто требует извлечения конкретного контента — изображений, текста, метаданных или структурированных данных — для повторного использования, анализа или редактирования. Овладев извлечением из PDF, вы экономите время, улучшаете рабочие процессы и получаете более глубокие инсайты из файлов, с которыми работаете.
Основные возможности
PDF‑файлы часто содержат логотипы, диаграммы, фотографии или отсканированные изображения. Извлечение этих изображений позволяет повторно использовать их без необходимости копировать целые страницы. Извлечение изображений высокого разрешения – получайте изображения точно в том виде, в каком они находятся в вашем PDF, для профессионального использования.
Извлечение текста позволяет преобразовать читаемый контент PDF в редактируемый текст. Это особенно полезно, когда нужно переиспользовать или проанализировать письменный материал. Выберите один из трёх режимов точности, соответствующий вашим требованиям:
Pure Mode — Сохраняет оригинальное форматирование для структурированного вывода
Raw Mode — Извлекает чистый текст без форматирования
Flatten Mode — Убирает специальные символы и форматирование, оставляя минимальный чистый текст
Извлечение свойств предоставляет информацию о PDF‑документе. Доступные свойства, которые могут вас заинтересовать: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
PDF‑формы широко используются в приложениях, опросах, счетах и контрактах. Они позволяют пользователям вводить информацию непосредственно в интерактивные поля. После заполнения формы организации часто нуждаются в извлечении этих данных для хранения, отчётности или анализа.
using Documentize;.License.Set("license.lic"); - Optional.ImageExtractorOptions с указанием пути к входному файлу и другими необходимыми параметрамиPdfExtractor.Extract с экземпляром ExtractImagesOptions в качестве параметраResultContainer.ResultCollectionExtractTextOptions и укажите входной PDFPdfExtractor.Extract с экземпляром ExtractTextOptions в качестве параметра и получите извлечённый текстExtractFormDataToDsvOptions для настройки процесса экспорта данных в CSVPdfExtractor.Extract, передавая параметрыPDF Extractor for .NET — мощный инструмент, предназначенный для быстрого и простого извлечения изображений, текста, метаданных из PDF‑документов, а также данных форм в PDF. Он бесшовно интегрируется в ваше приложение .NET, предлагая удобное решение для доступа к визуальному контенту PDF‑файлов.
Нет, данный компонент предназначен исключительно для извлечения из PDF. Для других задач, связанных с PDF, вы можете изучить дополнительные компоненты библиотеки Documentize или воспользоваться её полными возможностями по обработке документов.
Извлечение этих данных может быть полезным для анализа документов, подготовки отчетов, работы с ИИ.
В настоящее время компонент извлекает изображения в формате PNG. Данные форм экспортируются специально в формат CSV. Если вам нужны другие форматы, такие как JSON или XML, возможно, потребуется использовать дополнительные инструменты или самостоятельно настроить вывод.
Если PDF отсканирован или содержит изображения текста, может потребоваться процесс OCR (оптическое распознавание символов) для преобразования текстовых изображений в редактируемый формат.