1. المنتجات
  2.   PDF Extractor

PDF Extractor in C# .NET

استخراج الصور والنص والبيانات الوصفية والبيانات من النماذج في مستند PDF باستخدام إضافة Documentize .NET Plugin

مستخرج PDF في C#

Extract Data from PDF in C# with PdfExtractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر مختلف الأجهزة. ومع ذلك، غالبًا ما يتطلب العمل مع ملفات PDF استخراج محتوى محدد—مثل الصور أو النص أو البيانات الوصفية أو البيانات المنظمة—لإعادة الاستخدام أو التحليل أو التحرير. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، تحسين سير العمل، والحصول على رؤى أعمق من الملفات التي تتعامل معها.

Key Features

غالبًا ما تحتوي ملفات PDF على شعارات أو مخططات أو صور أو صور ممسوحة ضوئياً. يسمح لك استخراج هذه الصور بإعادة استخدامها دون الحاجة إلى نسخ الصفحات بالكامل.

يتيح لك استخراج النص تحويل المحتوى القابل للقراءة في ملف PDF إلى نص قابل للتحرير. هذا مفيد خاصة عندما تحتاج إلى إعادة استخدام أو تحليل المحتوى المكتوب.

يتيح لك استخراج الخصائص الحصول على معلومات حول مستند PDF. الخصائص المتاحة التي قد تهمك: العنوان، المؤلف، الموضوع، الكلمات المفتاحية، عدد الصفحات.

تُستخدم نماذج PDF على نطاق واسع في التطبيقات والاستطلاعات والفواتير والعقود. تسمح للمستخدمين بإدخال المعلومات مباشرة في حقول تفاعلية. ولكن بمجرد تعبئة النماذج، غالبًا ما تحتاج المؤسسات إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.

البدء

  • احصل على ملفات التجميع من التحميلات أو جلب الحزمة من NuGet لإضافة Documentize مباشرةً إلى مساحة عملك.
  • اشّر إلى Documentize في مشروعك .NET
  • قم بتعيين ترخيصك License.Set("license.lic"); اختياري

لماذا تختار PDF Extractor

  • مثالي للمطورين والشركات التي تدير المحتوى البصري في التقارير والعروض التقديمية والأرشيفات.
  • استخراج سريع وفعال لإعادة استخدام المحتوى بسهولة.
  • وضعيات استخراج متعددة لتحقيق أقصى مرونة.
  • تكامل .NET سلس لتبسيط سير العمل.
  • أنظمة التشغيل المدعومة تشمل Windows 7-11، وWindows Server 2003-2022، macOS (10.12+)، وLinux.
  • الأطر المدعومة من 4.0 إلى 8.0.
  • متوافق مع إصدارات مختلفة من Microsoft Visual Studio.
  • توثيق مفصل وhigh-quality documentation

كيفية استخراج الصور باستخدام PDF Extractor

  • قم بتكوين ImageExtractorOptions بمسار ملف الإدخال والإعدادات الضرورية الأخرى
  • استدعِ PdfExtractor.ExtractImages مع مثيل من ExtractImagesOptions كمعامل
  • الوصول إلى الصور المستخرجة عبر ResultContainer.ResultCollection

Via .NET


كيفية استخراج النص من PDF

  • أنشئ مثيلات من TextExtractorOptions
  • أضف مستندات PDF كإدخال باستخدام TextExtractorOptions.AddInput
  • استدعِ PdfExtractor.ExtractText مع مثيل من TextExtractorOptions كمعامل
  • الوصول إلى النص المستخرج باستخدام ResultContainer.ResultCollection

Via .NET


كيفية تصدير بيانات PDF

  • أنشئ مثيلًا من ExtractFormDataToDsvOptions لتكوين عملية تصدير البيانات إلى CSV
  • أضف ملفات الإدخال والإخراج إلى الخيارات
  • استدعِ طريقة FormExporter.ExtractFormData، مع تمرير الخيارات كمعامل

Via .NET


كيفية استخراج الخصائص من PDF

Via .NET


الأسئلة الشائعة

ما هو PDF Extractor؟

PDF Extractor for .NET هو أداة قوية مصممة لاستخراج الصور والنص والبيانات الوصفية من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يندمج بسلاسة في تطبيق .NET الخاص بك، مقدماً حلاً سهل الاستخدام للوصول إلى المحتوى البصري من ملفات PDF.

هل يمكنني استخدام PDF Extractor for .NET لمهام PDF أخرى؟

لا، هذه الإضافة مخصصة فقط للاستخراج من ملفات PDF. بالنسبة للمهام الأخرى المتعلقة بـ PDF، يمكنك استكشاف الإضافات الإضافية المتوفرة في مكتبة Documentize أو الاستفادة من إمكانياتها الكاملة لمعالجة المستندات.

لماذا قد أحتاج إلى استخراج النص/الصور/البيانات الوصفية/بيانات النماذج من PDF؟

يمكن أن يكون استخراج هذه البيانات مفيدًا لتحليل المستندات، وإعداد التقارير، والعمل مع الذكاء الاصطناعي.

ما نوع تنسيقات الإخراج التي يدعمها؟

حاليًا تقوم هذه الإضافة باستخراج الصور بتنسيق PNG. يتم تصدير بيانات النماذج خصيصًا إلى تنسيق CSV. إذا كنت بحاجة إلى تنسيقات أخرى مثل JSON أو XML، قد تحتاج إلى استخدام أدوات إضافية أو تخصيص الإخراج بنفسك.

هل يمكنني استخراج النص من ملفات PDF الممسوحة ضوئيًا؟

إذا كان ملف PDF ممسوحًا ضوئيًا أو يحتوي على صور للنص، قد تكون عملية OCR (التعرف الضوئي على الأحرف) ضرورية لتحويل النص المستند إلى صورة إلى صيغة قابلة للتحرير.

 عربي