1. المنتجات
  2.   PDF Extractor

PDF Extractor in C#/.NET

استخراج الصور، النص، البيانات الوصفية، وبيانات النموذج من مستند PDF

PDF Extractor

استخراج البيانات من PDF في C# باستخدام PDF Extractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر الأجهزة المختلفة. ومع ذلك، غالبًا ما يتطلب العمل مع PDF استخراج محتوى محدد—مثل الصور، النص، البيانات الوصفية، أو البيانات المنظمة—لإعادة الاستخدام أو التحليل أو التحرير. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، تحسين سير العمل، والحصول على رؤى أعمق من الملفات التي تتعامل معها.

الميزات الرئيسية

غالبًا ما تحتوي ملفات PDF على شعارات، مخططات، صور أو مسح ضوئي للصور. يسمح استخراج هذه الصور بإعادة استخدامها دون الحاجة إلى نسخ الصفحات بالكامل. استخراج صور بدقة عالية – استرجاع الصور كما تظهر في PDF للاستخدام الاحترافي.

يتيح لك استخراج النص تحويل المحتوى القابل للقراءة في PDF إلى نص قابل للتحرير. هذا مفيد بشكل خاص عندما تحتاج إلى إعادة توظيف أو تحليل المحتوى المكتوب. اختر من بين ثلاث أوضاع دقة لتلبية احتياجاتك:

الوضع النقي — يحافظ على التنسيق الأصلي لإخراج منظم

الوضع الخام — يستخرج النص العادي بدون تنسيق

وضع التسوية — يزيل الأحرف الخاصة والتنسيق للحصول على نص نظيف ومبسط

يسمح استخراج الخصائص باستخلاص معلومات حول مستند PDF. الخصائص المتاحة التي قد تهمك: FileName، Title، Author، Subject، Keywords، Created، Modified، Application، PDF Producer، Number of Pages.

تُستخدم نماذج PDF على نطاق واسع في التطبيقات، الاستطلاعات، الفواتير، والعقود. تسمح للمستخدمين بإدخال معلومات مباشرة في الحقول التفاعلية. ولكن بمجرد ملء النماذج، غالبًا ما تحتاج المؤسسات إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.

البدء

  • تنزيل ملفات التجميع من Here أو NuGet.
  • الإشارة إلى Documentize في مشروع .NET الخاص بك.
  • إضافة using Documentize;.
  • تعيين الرخصة الخاصة بك License.Set("license.lic"); - اختياري.

لماذا تختار PDF Extractor

  • مثالي للمطورين والشركات التي تدير محتوى بصريًا في التقارير، العروض التقديمية، والأرشيفات.
  • استخراج سريع وفعّال لإعادة استخدام المحتوى بسهولة.
  • أوضاع استخراج متعددة لأقصى مرونة.
  • تكامل سلس مع .NET لتبسيط سير العمل.
  • أنظمة التشغيل المدعومة تشمل Windows 7-11، وWindows Server 2003-2022، macOS (10.12+)، وLinux.
  • الأطر المدعومة من 4.0 إلى 8.0.
  • متوافق مع إصدارات متعددة من Microsoft Visual Studio.
  • توثيق مفصل وعالي الجودة high-quality documentation

كيفية استخراج الصور باستخدام PDF Extractor

  • تهيئة ImageExtractorOptions بمسار ملف الإدخال والإعدادات الضرورية الأخرى
  • استدعاء PdfExtractor.Extract مع مثيل من ExtractImagesOptions كمعامل
  • الوصول إلى الصور المستخرجة عبر ResultContainer.ResultCollection


كيفية استخراج النص من PDF

  • إنشاء مثيلات من ExtractTextOptions وتحديد PDF الإدخال
  • استدعاء PdfExtractor.Extract مع مثيل من ExtractTextOptions كمعامل والوصول إلى النص المستخرج


كيفية تصدير بيانات حقول PDF

  • إنشاء مثيل من ExtractFormDataToDsvOptions لتكوين عملية تصدير البيانات إلى CSV
  • إضافة ملفات الإدخال والإخراج إلى الخيارات
  • استدعاء طريقة PdfExtractor.Extract، مع تمرير الخيارات كمعامل


كيفية استخراج الخصائص من PDF


الأسئلة الشائعة

ما هو PDF Extractor؟

PDF Extractor for .NET هو أداة قوية مصممة لاستخراج الصور، النص، البيانات الوصفية من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يندمج بسلاسة في تطبيق .NET الخاص بك، مقدماً حلاً سهل الاستخدام للوصول إلى المحتوى المرئي من ملفات PDF.

هل يمكنني استخدام PDF Extractor for .NET لعمليات PDF أخرى؟

لا، هذه الإضافة مخصصة فقط للاستخراج من ملفات PDF. للمهام الأخرى المتعلقة بـ PDF، يمكنك استكشاف الإضافات الإضافية المتوفرة في مكتبة Documentize أو الاستفادة من كامل إمكانياتها لمعالجة المستندات.

لماذا قد أحتاج إلى استخراج النص/الصور/البيانات الوصفية/بيانات النموذج من PDF؟

استخراج هذه البيانات يمكن أن يكون مفيدًا لتحليل المستندات، إعداد التقارير، والعمل مع الذكاء الاصطناعي.

ما هي صيغ الإخراج التي يدعمها؟

حاليًا هذه الإضافة تستخرج الصور بصيغة PNG. تصدير بيانات النماذج يتم تحديدًا إلى صيغة CSV. إذا كنت تحتاج إلى صيغ أخرى مثل JSON أو XML، قد تحتاج إلى استخدام أدوات إضافية أو تخصيص الإخراج بنفسك.

هل يمكنني استخراج النص من ملفات PDF الممسوحة ضوئيًا؟

إذا كان PDF ممسوحًا ضوئيًا أو يحتوي على صور لنص، قد تحتاج إلى عملية OCR (التعرف الضوئي على الأحرف) لتحويل النص القائم على الصورة إلى صيغة قابلة للتحرير.

 عربي