1. Продукты
  2.   Извлечение текста из PDF

Извлечение текста из PDF в C# .NET

Извлекайте чистый, сырой или простой текст из PDF-документов с помощью Documentize .NET Plugin

Извлечение текста из PDF в C#

Извлечение текста из PDF с помощью Documentize PDF Text Extractor для .NET — это комплексное решение, которое упрощает извлечение текста из ваших PDF-документов. Этот мощный инструмент повышает доступность и удобство использования вашего контента, предлагая эффективные и универсальные возможности управления документами.

Гибкие варианты извлечения текста PDF Text Extractor сканирует ваши документы и определяет встроенный текст, извлекая его с точностью, сохраняя его оригинальную структуру и форматирование. С тремя различными режимами извлечения на выбор, этот инструмент предлагает:

Независимо от того, работаете ли вы с одним документом или обрабатываете большие партии, Documentize PDF Text Extractor упрощает задачу извлечения текста из PDF и оптимизирует управление вашими документами, экономя ваше драгоценное время и усилия.

Оцените удобство и эффективность с Documentize PDF Text Extractor для .NET.

Как извлечь текст из PDF через .NET

  • Укажите Documentize в вашем проекте
  • Установите ваши ключи лицензии
  • Создайте экземпляры TextExtractorOptions
  • Добавьте входные PDF-документы, используя TextExtractorOptions.AddDataSource
  • Вызовите TextExtractorOptions.Process и назначьте результат ResultContainer
  • Доступ к извлеченному тексту, используя ResultContainer.ResultCollection

Почему выбирают Documentize PDF Text Extractor?

  • Быстрое и эффективное извлечение текста для легкого повторного использования контента.
  • Несколько режимов извлечения для максимальной гибкости.
  • Бесшовная интеграция с .NET для упрощенных рабочих процессов.
  • Улучшенная доступность благодаря легкому редактированию, обмену или архивированию контента.
  • Подробная и высококачественная документация


Как извлечь текст из нескольких PDF

  • Укажите Documentize для .NET в вашем проекте
  • Установите ваши ключи лицензии
  • Создайте экземпляры TextExtractor и TextExtractorOptions
  • Добавьте входные PDF-документы, используя TextExtractorOptions.AddDataSource
  • Вызовите TextExtractor.Process с экземпляром TextExtractorOptions в качестве параметра
  • Получите результат в экземпляр ResultContainer
  • Доступ к извлеченному тексту, используя ResultContainer.ResultCollection

Режимы работы Extractor текста

  • Опция Чистый позволяет извлекать текст из PDF-файла с различными процедурами форматирования, включая относительные позиции и добавление дополнительных пробелов для выравнивания текста по ширине страницы
  • Режим Сырой извлекает текст из PDF-файла без применения какого-либо форматирования
  • Режим Простой извлекает текст из PDF-файла, учитывая относительное позиционирование текстовых фрагментов, но, в отличие от режима “Чистый”, не добавляет дополнительных пробелов.

Часто задаваемые вопросы

Что делает Documentize Text Extractor для .NET?

Documentize Text Extractor для .NET — это плагин, разработанный для .NET приложений, предлагающий извлечение текста из PDF-документов с тремя режимами работы; Чистый, Сырой и Простой. По умолчанию используется режим ‘Сырой’, поддерживает различные варианты ввода и вывода, позволяет одновременно обрабатывать несколько PDF-файлов и предоставляет возможности настройки для разработчиков, что делает его удобным решением для извлечения текста в средах .NET.

Чем отличается Documentize для .NET от Documentize Text Extractor для .NET?

Documentize для .NET — это мощный .NET API для широкого спектра задач с PDF, включая генерацию документов, сжатие, создание таблиц и продвинутые функции, такие как импорт и экспорт данных PDF. С другой стороны, Documentize Text Extractor для .NET — это специализированный плагин, сосредоточенный исключительно на извлечении текста из PDF-документов, с акцентом на возможности извлечения текста.

Ограничен ли Documentize Text Extractor для .NET только извлечением текста из PDF?

Да, PDF Text Extractor для .NET разработан специально для извлечения текста из PDF. Для других операций вы можете использовать другие PDF-плагины или все возможности библиотеки Documentize.

Зачем мне нужно извлекать текст из PDF?

Извлечение текста полезно для преобразования PDF в редактируемые форматы, поиска конкретной информации, анализа данных и перепрофилирования контента для отчетов или презентаций.

Могу ли я извлечь текст из сканированных PDF?

Если PDF отсканирован или содержит изображения текста, может потребоваться процесс OCR (оптическое распознавание символов) для преобразования текстового изображения в редактируемый формат.

Можно ли извлечь текст из конкретных страниц, а не из всего документа?

Да, инструмент позволяет пользователям извлекать текст с выбранных страниц или диапазонов страниц по мере необходимости.

 Русский