1. Produkty
  2.   Wydobywacz tekstu

Program do wyodrębniania tekstu z plików PDF dla .NET

Wyodrębnij czysty, surowy lub zwykły tekst z dokumentów PDF za pomocą Documentize .NET Plugin.

Narzędzie do pobierania tekstu dla .NET

Wprowadzenie do wtyczki Documentize Text Extractor dla .NET - potężne narzędzie, które upraszcza proces ekstrakcji tekstu z dokumentów PDF. Ta wtyczka to nie tylko ekstraktor tekstu - to kompleksowe rozwiązanie, które zwiększa efektywność i wszechstronność procesu zarządzania dokumentami. Wtyczka działa, skanując dokumenty PDF i identyfikując osadzony tekst. Następnie ekstraktuje ten tekst, zachowując jego oryginalny format i strukturę. Proces ten ma na celu poprawę dostępności i użyteczności Twojej treści. Jedną z wyróżniających cech tej wtyczki jest jej zdolność do oferowania trzech trybów działania: czysty, surowy i prosty. Tryb czysty wyodrębnia tekst, zachowując jego pierwotne formatowanie. Tryb surowy wyodrębnia tekst takim, jakim jest, bez żadnego formatowania. Tryb prosty wyodrębnia tekst i usuwa wszelkie znaki specjalne lub formatowanie. Te tryby zapewniają elastyczność i wygodę w zadaniach związanych z wydobywaniem tekstu w aplikacjach .NET, zapewniając możliwość wyboru najlepszego trybu odpowiadającego Twoim potrzebom. Jednak korzyści płynące z tej wtyczki wykraczają poza ekstrakcję tekstu. Oferuje ona również płynny i wydajny proces ekstrakcji, minimalizując czas i wysiłek potrzebny do wydobycia tekstu z pliku PDF. Dzięki tej wtyczce możesz doświadczyć wygody szybkiej i łatwej ekstrakcji tekstu. Podsumowując, wtyczka Documentize Text Extractor dla .NET to kompleksowe rozwiązanie, które usprawnia proces ekstrakcji tekstu z dokumentów PDF, zwiększa dostępność treści i upraszcza zarządzanie dokumentami. Wypróbuj to teraz i doświadcz wygody oraz efektywności naszej wtyczki już dziś. Odkryj nowy poziom wydajności!

Jak wyodrębnić tekst z pliku PDF za pomocą .NET

  • Dokumentuj w swoim projekcie.
  • Ustaw swoje klucze licencyjne
  • Utwórz instancje klasy TextExtractorOptions
  • Dodaj dokumenty PDF za pomocą TextExtractorOptions.AddDataSource
  • Wywołaj TextExtractorOptions.Process i przypisz wynik do ResultContainer.
  • Uzyskaj dostęp do wyodrębnionego tekstu, korzystając z ResultContainer.ResultCollection.

Rozpoczęcie pracy z ekstraktorem tekstu PDF

Pobierz pliki zestawu z pobrań lub pobierz pakiet z NuGet, aby dodać Documentize bezpośrednio do swojego obszaru roboczego.

  • Obsługiwane systemy operacyjne to Windows 7-11 oraz Windows Server 2003-2022, macOS (10.12+) i Linux
  • Wspierane ramy pracy obejmują zakres od 4.0 do 7.0
  • Zgodny z różnymi wersjami programu Microsoft Visual Studio


Jak wydobyć tekst z wielu plików PDF

  • Dokumentacja referencyjna dla .NET w twoim projekcie
  • Ustaw swoje klucze licencyjne
  • Utwórz instancje klasy TextExtractor oraz TextExtractorOptions.
  • Dodaj dokumenty PDF za pomocą TextExtractorOptions.AddDataSource
  • Wywołaj TextExtractor.Process z instancją TextExtractorOptions jako parametrem.
  • Uzyskaj wynik do egzemplarza ResultContainer.
  • Uzyskaj dostęp do wyodrębnionego tekstu, korzystając z ResultContainer.ResultCollection

Tryb pracy wyciągu tekstu

  • Opcja Pure umożliwia wyodrębnienie tekstu z pliku PDF za pomocą różnych procedur formatowania, uwzględniając względne pozycje i wprowadzając dodatkowe spacje w celu wyrównania tekstu do szerokości strony.
  • Tryb Surowy wyodrębnia tekst z pliku PDF bez zastosowania żadnego formatowania.
  • Tryb Plain wyodrębnia tekst z pliku PDF, uwzględniając względne położenie fragmentów tekstu, ale w przeciwieństwie do trybu “Pure” nie dodaje dodatkowej spacji.

Najczęściej Zadawane Pytania

Co robi Documentize Text Extractor dla .NET?

Documentize Text Extractor dla .NET to wtyczka zaprojektowana dla aplikacji .NET, oferująca ekstrakcję tekstu z dokumentów PDF w trzech trybach działania: Pure, Raw i Plain. Domyślnie ustawia się na tryb ‘Raw’, obsługuje wszechstronne opcje wejścia i wyjścia, pozwala na jednoczesne przetwarzanie wielu plików PDF i zapewnia możliwość dostosowania dla programistów, co czyni ją wygodnym rozwiązaniem do ekstrakcji tekstu w środowiskach .NET.

Jaka jest różnica między Documentize dla .NET a Documentize Text Extractor dla .NET?

Documentize dla .NET to solidne API .NET do szerokiego zakresu zadań związanych z PDF, w tym generowania dokumentów, kompresji, tworzenia tabel oraz zaawansowanych funkcji takich jak importowanie i eksportowanie danych PDF. Z drugiej strony, Documentize Text Extractor dla .NET to specjalistyczny plugin skoncentrowany wyłącznie na ekstrakcji tekstu z dokumentów PDF, kładąc nacisk na możliwości ekstrakcji tekstu.

Czy Documentize Text Extractor dla .NET jest ograniczony tylko do ekstrakcji tekstu z plików PDF?

Tak, PDF Text Extractor dla .NET został zaprojektowany specjalnie do wyodrębniania tekstu z PDF. Do innych operacji można użyć innych wtyczek PDF lub pełnych możliwości biblioteki Documentize.

Czy Documentize oferuje narzędzie online do ekstrakcji tekstu z PDF?

Tak, Documentize oferuje darmowe narzędzie do parsowania tekstu PDF online do podstawowych potrzeb.

Gdzie mogę znaleźć przykłady ekstrakcji tekstu z dokumentów w C#?

Odkryj nasze strony docelowe dla Wyodrębnij tekst z PDF dla .NET

 Polski