1. Продукты
  2.   Text Extractor

PDF текстовый извлекатель для .NET

Извлекайте чистый, сырой или простой текст из PDF-документов с помощью Documentize .NET Plugин.

Экстрактор текста для .NET

Представляем плагин Documentize Text Extractor для .NET - мощный инструмент, который упрощает процесс извлечения текста из ваших PDF-документов. Этот плагин - это не просто извлекатель текста, это комплексное решение, которое повышает эффективность и универсальность вашего процесса управления документами. Плагин работает, сканируя ваши PDF-документы и идентифицируя встроенный текст. Затем он извлекает этот текст, сохраняя его оригинальное форматирование и структуру. Этот процесс направлен на улучшение доступности и удобства использования вашего контента. Одной из выдающихся особенностей этого плагина является его способность предлагать три режима работы: чистый, сырой и простой. Чистый режим извлекает текст, сохраняя его оригинальное форматирование. Сырой режим извлекает текст таким, какой он есть, без какого-либо форматирования. Простой режим извлекает текст и удаляет любые специальные символы или форматирование. Эти режимы обеспечивают гибкость и удобство для задач извлечения текста в приложениях .NET, позволяя выбрать лучший режим, который соответствует вашим потребностям. Однако преимущества этого плагина выходят за рамки извлечения текста. Он также предлагает плавный и эффективный процесс извлечения, минимизируя время и усилия, необходимые для извлечения текста из вашего PDF. С помощью этого плагина вы можете испытать удобство быстрого и простого извлечения текста. В заключение, плагин Documentize Text Extractor для .NET является комплексным решением, которое упрощает процесс извлечения текста из ваших PDF-документов, улучшает доступность вашего контента и оптимизирует процесс управления документами. Попробуйте его сейчас и ощутите удобство и эффективность нашего плагина уже сегодня. Откройте для себя новый уровень эффективности!

Как извлечь текст из PDF с помощью .NET

  • Документируйте в вашем проекте
  • Установите свои ключи лицензии
  • Создайте экземпляры TextExtractorOptions
  • Добавьте входные PDF документы, используя TextExtractorOptions.AddDataSource.
  • Вызовите TextExtractorOptions.Process и присвойте результат ResultContainer.
  • Получите доступ к извлечённому тексту, используя ResultContainer.ResultCollection.

Начало работы с PDF Text Extractor

Получите файлы сборки из загрузок или загрузите пакет из NuGet, чтобы добавить Documentize напрямую в ваше рабочее пространство.

  • Поддерживаемые операционные системы включают Windows 7-11, Windows Server 2003-2022, macOS (10.12+) и Linux.
  • Поддерживаемые фреймворки варьируются от 4.0 до 7.0.
  • Совместимо с различными версиями Microsoft Visual Studio


Как извлечь текст из нескольких PDF-файлов

  • Справочный документ для .NET в вашем проекте
  • Установите свои ключи лицензии
  • Создайте экземпляры TextExtractor и TextExtractorOptions.
  • Добавьте входные PDF документы, используя TextExtractorOptions.AddDataSource.
  • Вызовите TextExtractor.Process с экземпляром TextExtractorOptions в качестве параметра.
  • Получите результат в экземпляре ResultContainer
  • Получите доступ к извлеченному тексту с помощью ResultContainer.ResultCollection

Операция текстового извлекателя

  • Опция Pure позволяет извлекать текст из PDF-файла с различными процедурами форматирования, включая относительные позиции и добавление дополнительных пробелов для выравнивания текста по ширине страницы.
  • Режим Raw извлекает текст из PDF-файла без применения какого-либо форматирования.
  • Режим Plain извлекает текст из PDF-файла, учитывая относительное положение фрагментов текста, но в отличие от режима “Pure”, не добавляет лишние пробелы.

Часто задаваемые вопросы

Что делает Documentize Text Extractor для .NET?

Documentize Text Extractor для .NET — это плагин, разработанный для приложений .NET, предлагающий извлечение текста из PDF-документов в трех режимах работы: Pure, Raw и Plain. По умолчанию установлен режим ‘Raw’, он поддерживает различные варианты ввода и вывода, позволяет одновременно обрабатывать несколько PDF-файлов и предоставляет возможности для настройки для разработчиков, что делает его удобным решением для извлечения текста в средах .NET.

В чем разница между Documentize для .NET и Documentize Text Extractor для .NET?

Documentize для .NET — это мощный .NET API для выполнения широкого спектра задач с PDF, включая генерацию документов, сжатие, создание таблиц и продвинутые функции, такие как импорт и экспорт данных PDF. С другой стороны, Documentize Text Extractor для .NET — это специализированный плагин, сосредоточенный исключительно на извлечении текста из PDF-документов, подчеркивающий возможности извлечения текста.

Документальный текстовый извлекатель для .NET ограничен только извлечением текста из PDF?

Да, PDF Text Extractor для .NET специально разработан для извлечения текста из PDF. Для других операций вы можете использовать другие плагины PDF или все возможности библиотеки Documentize.

Документайз предлагает онлайн-инструмент для извлечения текста из PDF?

Да, Documentize предоставляет бесплатный онлайн инструмент для разбора текста из PDF для базовых нужд.

Где я могу найти примеры извлечения текста из Documentize на C#?

Откройте для себя наши целевые страницы для Извлечения текста из PDF для .NET

 Русский