1. محصولات
  2.   استخراج متن

استخراج‌کننده متن PDF برای .NET

متن خالص، خام یا ساده را از اسناد PDF با پلاگین Documentize .NET استخراج کنید.

استخراج‌کننده متن برای .NET

معرفی افزونه Documentize Text Extractor برای .NET - ابزاری قدرتمند که فرآیند استخراج متن از اسناد PDF شما را ساده می‌کند. این افزونه تنها یک استخراج‌کننده متن نیست - بلکه یک راه‌حل جامع است که کارایی و انعطاف‌پذیری فرآیند مدیریت اسناد شما را افزایش می‌دهد. این افزونه با اسکن کردن مدارک PDF شما و شناسایی متن‌های جاسازی شده عمل می‌کند. سپس این متن را در حالی که فرمت و ساختار اصلی آن حفظ می‌شود استخراج می‌کند. این فرآیند تماماً درباره بهبود دسترسی و قابلیت استفاده از محتوای شما است. یکی از ویژگی‌های برجسته این افزونه، قابلیت آن برای ارائه سه حالت عملیاتی است: خالص، خام و ساده. حالت خالص متن را استخراج می‌کند در حالی که فرمت اصلی آن حفظ می‌شود. حالت خام متن را به همان صورتی که هست استخراج می‌کند، بدون هیچ فرمت‌بندی. حالت ساده متن را استخراج کرده و هر گونه کاراکتر یا فرمت خاص را حذف می‌کند. این حالت‌ها انعطاف‌پذیری و سهولتی را برای وظایف استخراج متن در برنامه‌های .NET فراهم می‌کنند و اطمینان می‌دهند که می‌توانید بهترین حالت را که مطابق با نیازهای شماست انتخاب کنید. با این حال، مزایای این پلاگین فراتر از استخراج متن است. این پلاگین همچنین یک فرآیند استخراج ملایم و کارآمد را ارائه می‌دهد که زمان و تلاش مورد نیاز برای استخراج متن از PDF شما را به حداقل می‌رساند. با این پلاگین، می‌توانید راحتی استخراج‌های سریع و آسان متن را تجربه کنید. به طور خلاصه، پلاگین Documentize Text Extractor برای .NET یک راه حل جامع است که فرآیند استخراج متن از اسناد PDF شما را ساده می‌کند، دسترسی به محتوای شما را افزایش می‌دهد و فرآیند مدیریت اسناد شما را بهبود می‌بخشد. هم اکنون آن را امتحان کنید و از راحتی و کارایی پلاگین ما امروز بهره‌مند شوید. یک سطح جدید از کارایی را کشف کنید!

چگونه متن را از PDF از طریق .NET استخراج کنیم

  • سند مرجع را در پروژه خود مستند کنید
  • کلیدهای پروانه خود را تنظیم کنید
  • ایجاد نمونه‌های TextExtractorOptions
  • افزودن اسناد PDF ورودی با استفاده از TextExtractorOptions.AddDataSource
  • فراخوانی TextExtractorOptions.Process را انجام دهید و نتیجه را به ResultContainer اختصاص دهید.
  • به متن استخراج‌شده با استفاده از ResultContainer.ResultCollection دسترسی پیدا کنید

شروع کار با استخراج متن PDF

فایل‌های اسمبلی را از دانلودها دریافت کنید یا بسته را از NuGet دریافت کنید تا Documentize را به‌طور مستقیم به فضای کار خود اضافه کنید.

  • سیستم‌عامل‌های قابل پشتیبانی شامل ویندوز 7-11، و ویندوز سرور 2003-2022، macOS (10.12+) و لینوکس می‌باشند.
  • فریمورک‌های پشتیبانی شده از ۴.۰ تا ۷.۰ متغیر است.
  • سازگار با نسخه‌های مختلف مایکروسافت ویژوال استودیو


روش استخراج متن از چندین سند PDF

  • مستندات مرجع Documentize را در پروژه خود وارد کنید
  • کلیدهای پروانه خود را تنظیم کنید
  • ایجاد نمونه‌های TextExtractor و TextExtractorOptions
  • افزودن اسناد PDF ورودی با استفاده از TextExtractorOptions.AddDataSource
  • با فراخوانی TextExtractor.Process با یک نمونه از TextExtractorOptions به عنوان پارامتر
  • نتیجه را به یک نمونه از ResultContainer بگیرید
  • دسترسی به متن استخراج شده با استفاده از ResultContainer.ResultCollection

حالات عملیاتی استخراج متن

  • گزینه پاک امکان استخراج متن از یک فایل PDF را با روش‌های مختلف فرمت‌بندی فراهم می‌کند، شامل موقعیت‌های نسبی و وارد کردن فضاهای اضافی برای تطابق متن با عرض صفحه است.
  • حالت خام متن را از فایل PDF بدون اعمال هرگونه قالب بندی استخراج می کند.
  • حالت Plain متن را از فایل PDF استخراج می‌کند و به موقعیت نسبی قسمت‌های متن توجه می‌کند، اما برخلاف حالت “Pure” فضایی اضافه نمی‌کند.

سوالات متداول

Documentize Text Extractor برای .NET چه کاری انجام می‌دهد؟

مبدل متنی Documentize برای .NET یک پلاگین طراحی شده برای برنامه‌های .NET است که امکان استخراج متن از اسناد PDF را با سه حالت عملیاتی؛ خالص، خام و ساده ارائه می‌دهد. به‌طور پیش‌فرض در حالت ‘خام’ قرار دارد، از گزینه‌های ورودی و خروجی چندمنظوره پشتیبانی می‌کند، امکان پردازش همزمان چندین فایل PDF را فراهم می‌آورد و تنظیمات دلخواه برای توسعه‌دهندگان ارائه می‌دهد، که آن را به یک راه‌حل مناسب برای استخراج متن در محیط‌های .NET تبدیل می‌کند.

تفاوت بین Documentize برای .NET و Documentize Text Extractor برای .NET چیست؟

Documentize برای .NET یک API قوی برای .NET است که طیف وسیعی از وظایف PDF را شامل می‌شود، از جمله ایجاد سند، فشرده‌سازی، ایجاد جدول و ویژگی‌های پیشرفته مانند وارد کردن و صادر کردن داده‌های PDF. از سوی دیگر، Documentize Text Extractor برای .NET یک افزونه تخصصی است که به‌طور خاص بر روی استخراج متن از اسناد PDF متمرکز است و قابلیت‌های استخراج متن را مورد تأکید قرار می‌دهد.

آیا ابزار استخراج متن Documentize برای .NET محدود به استخراج متن از PDF است؟

بله، PDF Text Extractor برای .NET به‌طور خاص برای استخراج متن از PDF طراحی شده است. برای دیگر عملیات می‌توانید از سایر پلاگین‌های PDF یا قابلیت‌های کامل کتابخانه Documentize استفاده کنید.

آیا Documentize یک ابزار آنلاین برای استخراج متن از PDF ارائه می‌دهد؟

Yes, Documentize یک ابزار رایگان آنلاین تجزیه متن PDF برای نیازهای اولیه ارائه می‌دهد.

من کجا می‌توانم نمونه‌های استخراج متن از Documentize را در C# پیدا کنم؟

صفحات لندینگ ما را برای استخراج متن از PDF برای .NET کشف کنید.

 فارسی