1. المنتجات
  2.   PDF Extractor

PDF Extractor in C#/.NET

استخراج الصور والنص والبيانات الوصفية وبيانات النماذج من مستند PDF

PDF Extractor

Extract Data from PDF in C# with PDF Extractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر الأجهزة المختلفة. ومع ذلك، غالبًا ما يتطلب العمل مع ملفات PDF استخراج محتوى محدد—مثل الصور، النص، البيانات الوصفية، أو البيانات المنظمة— لإعادة استخدامها، أو للتحليل، أو للتحرير. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، تحسين سير العمل، واكتساب رؤى أعمق من الملفات التي تتعامل معها.

Key Features

غالبًا ما تحتوي ملفات PDF على شعارات، رسوم بيانية، صور أو صور ممسوحة ضوئيًا. يسمح لك استخراج هذه الصور بإعادة استخدامها دون الحاجة إلى نسخ الصفحات بأكملها. استخراج الصور بدقة عالية – استرجع الصور كما تظهر بالضبط في ملف PDF للاستخدام المهني.

يتيح لك استخراج النص تحويل المحتوى القابل للقراءة في PDF إلى نص قابل للتحرير. هذا مفيد خاصةً عندما تحتاج إلى إعادة استخدام المحتوى المكتوب أو تحليله. اختر من بين ثلاثة أوضاع دقة لتناسب احتياجاتك:

Pure Mode — يحتفظ بالتنسيق الأصلي لإنتاج مخرجات منظمة

Raw Mode — يستخرج النص العادي بدون تنسيق

Flatten Mode — يزيل الأحرف الخاصة والتنسيق للحصول على نص نظيف ومبسط

يتيح لك استخراج الخصائص الحصول على معلومات حول مستند PDF. الخصائص المتاحة التي قد تهمك: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

تُستخدم نماذج PDF على نطاق واسع في التطبيقات، الاستطلاعات، الفواتير، والعقود. تسمح للمستخدمين بإدخال المعلومات مباشرةً في الحقول التفاعلية. ولكن بمجرد ملء النماذج، غالبًا ما تحتاج المؤسسات إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.

Getting Started

  • قم بتنزيل ملفات التجميع من Here أو NuGet.
  • أشر إلى Documentize في مشروع .NET الخاص بك.
  • أضف using Documentize;.
  • اضبط رخصتك License.Set("license.lic"); - Optional.

Why Choose PDF Extractor

  • مثالي للمطورين والشركات التي تدير المحتوى البصري في التقارير، العروض، والأرشيفات.
  • استخراج سريع وفعال لإعادة استخدام المحتوى بسهولة.
  • أوضاع استخراج متعددة لأقصى مرونة.
  • تكامل سلس مع .NET لتبسيط سير العمل.
  • أنظمة التشغيل المدعومة تشمل Windows 7-11، وWindows Server 2003-2022، macOS (10.12+)، وLinux.
  • الأطر المدعومة من 4.0 إلى 8.0.
  • متوافق مع إصدارات مختلفة من Microsoft Visual Studio.
  • توثيق تفصيلي وhigh-quality documentation

How to Extract Images with PDF Extractor

  • قم بتكوين ImageExtractorOptions مع مسار ملف الإدخال والإعدادات الضرورية الأخرى
  • استدعِ PdfExtractor.Extract مع كائن ExtractImagesOptions كمعامل
  • احصل على الصور المستخرجة عبر ResultContainer.ResultCollection


How to Extract Text from PDF

  • أنشئ كائنات من ExtractTextOptions وحدد ملف PDF الإدخالي
  • استدعِ PdfExtractor.Extract مع كائن ExtractTextOptions كمعامل واحصل على النص المستخرج


How to Export PDF fields data

  • أنشئ كائنًا من ExtractFormDataToDsvOptions لضبط عملية تصدير البيانات إلى CSV
  • أضف ملفات الإدخال والإخراج إلى الخيارات
  • استدعِ طريقة PdfExtractor.Extract، مع تمرير الخيارات كمعامل


How to Extract Properties from PDF


الأسئلة الشائعة

What is PDF Extractor?

PDF Extractor for .NET هو أداة قوية مصممة لاستخراج الصور، النص، البيانات الوصفية من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يندمج بسلاسة في تطبيق .NET الخاص بك، مُقدمًا حلاً سهل الاستخدام للوصول إلى المحتوى البصري من ملفات PDF.

Can I use PDF Extractor for .NET for other PDF operations?

لا، هذا المكوّن مخصص فقط للاستخراج من ملفات PDF. للمهام الأخرى المتعلقة بـ PDF، يمكنك استكشاف المكونات الإضافية المتوفرة في مكتبة Documentize أو الاستفادة من قدراتها الكاملة لمعالجة المستندات.

Why would I need to extract text/images/metadata/form data from a PDF?

استخراج هذه البيانات يمكن أن يكون مفيدًا لتحليل المستندات، إعداد التقارير، والعمل مع الذكاء الاصطناعي.

What types of output formats does it support?

حاليًا يقتصر هذا المكوّن على استخراج الصور بصيغة PNG. تصدير بيانات النماذج يتم تحديدًا إلى صيغة CSV. إذا كنت بحاجة إلى صيغ أخرى مثل JSON أو XML، قد تحتاج إلى استخدام أدوات إضافية أو تخصيص المخرجات بنفسك.

Can I extract text from scanned PDFs?

إذا كان ملف PDF ممسوحًا ضوئيًا أو يحتوي على صور للنص، قد يتطلب الأمر عملية OCR (التعرف الضوئي على الأحرف) لتحويل النص المستند إلى صورة إلى صيغة قابلة للتحرير.

 عربي