Извлечение данных из PDF в C# с помощью PdfExtractor. PDF широко используется для хранения документов, поскольку сохраняет форматирование на разных устройствах. Однако работа с PDF часто требует извлечения определённого содержимого — изображений, текста, метаданных или структурированных данных — для повторного использования, анализа или редактирования. Освоив извлечение из PDF, вы сможете экономить время, улучшать процессы и получать более глубокие инсайты из файлов, с которыми работаете.
Ключевые возможности
PDF часто содержат логотипы, диаграммы, фотографии или отсканированные изображения. Извлечение этих изображений позволяет повторно использовать их без необходимости копировать целые страницы.
Извлечение текста позволяет преобразовать читаемое содержимое PDF в редактируемый текст. Это особенно полезно, когда нужно перенести или проанализировать написанное содержание.
Извлечение свойств предоставляет информацию о документе PDF. Доступные свойства, которые могут вас заинтересовать: Title, Author, Subject, Keywords, Number of Pages.
PDF‑формы широко используются в приложениях, опросах, счетах и контрактах. Они позволяют пользователям вводить информацию непосредственно в интерактивные поля. После заполнения форм организации часто нуждаются в извлечении этих данных для хранения, отчётности или анализа.
License.Set("license.lic"); НеобязательноImageExtractorOptions с указанием пути к входному файлу и другими необходимыми параметрамиPdfExtractor.ExtractImages, передав экземпляр ExtractImagesOptions в качестве параметраResultContainer.ResultCollectionTextExtractorOptionsTextExtractorOptions.AddInputPdfExtractor.ExtractText, передав экземпляр TextExtractorOptions в качестве параметраResultContainer.ResultCollectionExtractFormDataToDsvOptions для настройки процесса экспорта данных в CSVFormExporter.ExtractFormData, передавая в него параметрыPDF Экстрактор для .NET — мощный инструмент, предназначенный для быстрого и простого извлечения изображений, текста, метаданных из PDF‑документов, а также данных форм в PDF. Он бесшовно интегрируется в ваше .NET‑приложение, предоставляя удобное решение для доступа к визуальному контенту PDF‑файлов.
Нет, этот плагин предназначен исключительно для извлечения данных из PDF. Для других задач, связанных с PDF, вы можете изучить дополнительные плагины, доступные в библиотеке Documentize, или воспользоваться её полной функциональностью для обработки документов.
Извлечение этих данных может быть полезным для анализа документов, подготовки отчётов, работы с ИИ.
В данный момент плагин извлекает изображения в формате PNG. Данные форм экспортируются в формат CSV. Если нужны другие форматы, такие как JSON или XML, возможно потребуется использовать дополнительные инструменты или настроить вывод самостоятельно.
Если PDF отсканирован или содержит изображения текста, может потребоваться процесс OCR (оптическое распознавание символов) для преобразования текста из изображений в редактируемый формат.