1. Продукти
  2.   Текстовий витяг

Витяговувач тексту з PDF для .NET

Витягніть чистий, сирий або простий текст з PDF документів за допомогою Documentize .NET Pluginto.

Витягувач тексту для .NET

Представляємо плагін Documentize Text Extractor для .NET - потужний інструмент, який спрощує процес витягування тексту з ваших PDF-документів. Цей плагін є не просто текстовим екстрактором - це комплексне рішення, яке підвищує ефективність і універсальність вашого процесу управління документами. Плагін працює, скануючи ваші PDF-документи та визначаючи вбудований текст. Він потім витягує цей текст, зберігаючи його початкове форматування та структуру. Цей процес спрямований на поліпшення доступності та зручності вашого контенту. Однією з видатних особливостей цього плагіна є його здатність пропонувати три режими роботи: чистий, сирий та простий. Чистий режим витягує текст, зберігаючи його первинне форматування. Сирий режим витягує текст таким, яким він є, без будь-якого форматування. Простий режим витягує текст та видаляє будь-які спеціальні символи або форматування. Ці режими забезпечують гнучкість і зручність для завдань витягування тексту в .NET-додатках, що дозволяє вибрати найкращий режим відповідно до ваших потреб. Однак переваги цього плагіна виходять за межі витягання тексту. Він також пропонує гладкий та ефективний процес витягання, мінімізуючи час і зусилля, необхідні для витягання тексту з вашого PDF. З цим плагіном ви можете відчути зручність швидкого та легкого витягання тексту. У підсумку, плагін Documentize Text Extractor для .NET є всеохоплюючим рішенням, яке спрощує процес витягування тексту з ваших PDF-документів, покращує доступність вашого контенту та оптимізує процес управління документами. Спробуйте його зараз і відчуйте зручність і ефективність нашого плагіна сьогодні. Відкрийте новий рівень ефективності!

Як витягти текст з PDF через .NET.

  • Документування посилань у вашому проекті
  • Встановіть свої ключі ліцензії
  • Створіть екземпляри об’єктів TextExtractorOptions.
  • Додайте вхідні PDF-документи за допомогою TextExtractorOptions.AddDataSource
  • Викличте TextExtractorOptions.Process та присвойте результат змінній ResultContainer.
  • Доступ до витягнутого тексту здійснюється за допомогою ResultContainer.ResultCollection

Початок роботи з витягувачем тексту з PDF.

Отримайте файли збірки з завантажень або завантажте пакет з NuGet, щоб додати Documentize безпосередньо до вашого робочого простору.

  • Підтримувані операційні системи включають Windows 7-11 і Windows Server 2003-2022, macOS (10.12+) та Linux
  • Підтримувані фреймворки від 4.0 до 7.0
  • Сумісний з різними версіями Microsoft Visual Studio


Як видобути текст з кількох PDF-файлів

  • Документуйте посилання для .NET у вашому проекті
  • Встановіть свої ключі ліцензії
  • Створюйте екземпляри TextExtractor та TextExtractorOptions
  • Додайте вхідні PDF-документи за допомогою TextExtractorOptions.AddDataSource
  • Викличте TextExtractor.Process з інстанцією TextExtractorOptions в якості параметра
  • Отримаємо результат у екземплярі ResultContainer
  • Отримайте виділене текст за допомогою ResultContainer.ResultCollection

Режими роботи витягувача тексту

  • Опція Pure дозволяє видобування тексту з файлу PDF за допомогою різноманітних процедур форматування, включаючи відносні позиції та вводячи додаткові пробіли для вирівнювання тексту по ширині сторінки
  • Режим Raw вилучає текст з файлу PDF без застосування будь-якого форматування.
  • Режим Звичайний витягує текст з файлу PDF, враховуючи відносне розташування фрагментів тексту, але, на відміну від режиму “Чистий”, він не додає додаткового простору.

Часті Питання

Що робить Documentize Text Extractor для .NET?

Documentize Text Extractor для .NET – це плагін, розроблений для .NET додатків, що пропонує витяг тексту з PDF документів у трьох режимах роботи: Pure, Raw та Plain. Він за замовчуванням використовує режим ‘Raw’, підтримує різноманітні опції вводу та виводу, дозволяє одночасну обробку кількох PDF файлів і надає можливості кастомізації для розробників, що робить його зручним рішенням для витягання тексту в середовищах .NET.

В чому різниця між Documentize для .NET та Documentize Text Extractor для .NET?

Documentize для .NET - це потужний .NET API для широкого спектра завдань з PDF, включаючи генерацію документів, стиснення, створення таблиць та розширені функції, такі як імпорт та експорт даних PDF. З іншого боку, Documentize Text Extractor для .NET - це спеціалізований плагін, орієнтований виключно на витягування тексту з PDF документів, який акцентує увагу на можливостях витягування тексту.

Чи обмежений Documentize Text Extractor для .NET тільки на витягування тексту з PDF?

Так, PDF Text Extractor для .NET розроблений спеціально для вилучення тексту з PDF. Для інших операцій ви можете використовувати інші PDF плагіни або повні можливості бібліотеки Documentize.

Чи пропонує Documentize онлайн-інструмент для вилучення тексту з PDF?

Так, Documentize пропонує безкоштовний онлайн-інструмент для парсингу тексту з PDF для базових потреб.

Де я можу знайти приклади вилучення тексту з Documentize на C#?

Відкрийте наші сторінки для посадок з Extract Text from PDF for .NET

 Українська