1. Produkty
  2.   Extraktor textu

Extraktor textu z PDF pro .NET

Extrahujte čistý, surový nebo prostý text z PDF dokumentů pomocí Documentize .NET Plugin.

Extraktor textu pro .NET

Představujeme plugin Documentize Text Extractor pro .NET - výkonný nástroj, který zjednodušuje proces extrakce textu z vašich PDF dokumentů. Tento plugin je víc než jen extraktor textu - je to komplexní řešení, které zvyšuje efektivitu a flexibilitu vašeho procesu správy dokumentů. Plugin funguje tak, že proskénuje vaše PDF dokumenty a identifikuje vložený text. Poté tento text extrahuje, přičemž zachovává jeho původní formátování a strukturu. Tento proces je zaměřen na zlepšení přístupnosti a použitelnosti vašeho obsahu. Jednou z vynikajících vlastností tohoto pluginu je jeho schopnost nabízet tři provozní režimy: čistý, surový a jednoduchý. Čistý režim extrahuje text při zachování jeho původního formátování. Surový režim extrahuje text tak, jak je, bez jakéhokoli formátování. Jednoduchý režim extrahuje text a odstraňuje jakékoli speciální znaky nebo formátování. Tyto režimy poskytují flexibilitu a pohodlí pro úkoly extrakce textu v aplikacích .NET, což zajišťuje, že si můžete vybrat nejlepší režim, který vyhovuje vašim potřebám. Nicméně, výhody tohoto pluginu přesahují pouze extrakci textu. Nabízí také plynulý a efektivní proces extrakce, který minimalizuje čas a úsilí potřebné k extrakci textu z vašeho PDF. S tímto pluginem můžete zažít pohodlí rychlé a snadné extrakce textu. Ve shrnutí, plugin Documentize Text Extractor pro .NET je komplexní řešení, které zjednodušuje proces extrakce textu z vašich PDF dokumentů, zvyšuje přístupnost vašeho obsahu a zefektivňuje správu dokumentů. Vyzkoušejte to nyní a zažijte pohodlí a efektivitu našeho pluginu ještě dnes. Objevte novou úroveň efektivity!

Jak extrahovat text z PDF pomocí .NET

  • Dokumentace odkazu ve vašem projektu
  • Nastavte klíče k licenci
  • Vytvořte instance třídy TextExtractorOptions.
  • Přidejte vstupní PDF dokumenty pomocí TextExtractorOptions.AddDataSource.
  • Zavolejte TextExtractorOptions.Process a přiřaďte výsledek do ResultContainer.
  • Přístup k extrahovanému textu pomocí ResultContainer.ResultCollection

Začínáme s extraktorom textu z PDF

Získáte soubory assembly z downloads nebo stáhněte balíček z NuGet, abyste přidali Documentize přímo do své pracovní plochy.

  • Podporované operační systémy zahrnují Windows 7-11 a Windows Server 2003-2022, macOS (verze 10.12+) a Linux
  • Podporované rámce sa pohybujú od 4.0 do 7.0.
  • Kompatibilní s různými verzemi Microsoft Visual Studia


Jak extrahovat text z více PDF souborů

  • Reference Documentace pro .NET ve vašem projektu
  • Nastavte klíče k licenci
  • Vytvořte instance TextExtractor a TextExtractorOptions.
  • Přidejte vstupní PDF dokumenty pomocí TextExtractorOptions.AddDataSource.
  • Zavolejte TextExtractor.Process s instancí TextExtractorOptions jako parametrem.
  • Získejte výsledek do instance třídy ResultContainer.
  • Přeložte následující text: - K přístupu k extrahovanému textu použijte ResultContainer.ResultCollection.

Režimy provozu extraktoru textu

  • Možnost Pure umožňuje extrahovat text z PDF souboru pomocí různých formátovacích postupů, zahrnuje relativní pozice a zavádí další mezery pro zarovnání textu na šířku stránky.
  • Režim „Syrového textu“ extrahuje text z PDF souboru bez použití jakéhokoli formátování.
  • Režim Plain extrahuje text z PDF souboru s ohledem na relativní polohování textových fragmentů, ale na rozdíl od režimu “Pure” nepřidává žádný extra prostor.

Často kladené dotazy

Co dělá Documentize Text Extractor pro .NET?

Documentize Text Extractor pro .NET je plugin navržený pro aplikace .NET, který nabízí extrakci textu z PDF dokumentů ve třech režimech: Pure, Raw a Plain. Ve výchozím nastavení je nastaven na režim ‘Raw’, podporuje různé možnosti vstupu a výstupu, umožňuje současné zpracování více PDF souborů a poskytuje přizpůsobení pro vývojáře, což z něj činí pohodlné řešení pro extrakci textu v prostředí .NET.

Jaký je rozdíl mezi Documentize pro .NET a Documentize Text Extractor pro .NET?

Documentize pro .NET je robustní .NET API pro širokou škálu úloh spojených s PDF, včetně generování dokumentů, komprese, vytváření tabulek a pokročilých funkcí, jako je import a export dat PDF. Na druhé straně je Documentize Text Extractor pro .NET specializovaný plugin zaměřený výhradně na extrakci textu z PDF dokumentů, s důrazem na schopnosti extrakce textu.

Je Documentize Text Extractor pro .NET omezen pouze na extrakci textu z PDF?

Ano, PDF Text Extractor pro .NET je navržen speciálně pro extrakci textu z PDF. Pro jiné operace můžete použít další PDF pluginy nebo plné možnosti knihovny Documentize.

Nabízí Documentize online nástroj pro extrakci textu z PDF?

Ano, Documentize poskytuje bezplatný online nástroj pro analýzu textu PDF pro základní potřeby.

Kde mohu najít příklady extrakce textu pomocí Documentize v C#?

Objevte naše vstupní stránky pro Extrakci textu z PDF pro .NET

 Čeština