1. المنتجات
  2.   PDF Extractor

PDF Extractor in C# .NET

استخراج الصور، النص، البيانات الوصفية، وبيانات النماذج من مستند PDF باستخدام Documentize

PDF Extractor in C#

Extract Data from PDF in C# with PdfExtractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر الأجهزة المختلفة. ومع ذلك، غالبًا ما يتطلب العمل مع PDF استخراج محتوى محدد—مثل الصور، النص، البيانات الوصفية، أو البيانات المهيكلة—لإعادة الاستخدام أو التحليل أو التحرير. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، تحسين سير العمل، واكتساب رؤى أعمق من الملفات التي تتعامل معها.

Key Features

غالبًا ما تحتوي ملفات PDF على شعارات، مخططات، صور فوتوغرافية أو صور ممسوحة ضوئيًا. يتيح لك استخراج هذه الصور إعادة استخدامها دون الحاجة إلى نسخ صفحات كاملة. استخراج صور عالية الدقة – استرجاع الصور كما تظهر بالضبط في PDF للاستخدام الاحترافي.

يتيح لك استخراج النص تحويل المحتوى القابل للقراءة في PDF إلى نص قابل للتحرير. هذا مفيد بشكل خاص عندما تحتاج إلى إعادة استخدام المحتوى المكتوب أو تحليله. اختر من بين ثلاث أوضاع دقة لتناسب احتياجاتك:

وضع Pure — يحتفظ بالتنسيق الأصلي لإخراج منظم

وضع Raw — يستخرج النص العادي دون تنسيق

وضع Flatten — يزيل الأحرف الخاصة والتنسيق للحصول على نص نظيف وم Minimal

يتيح لك استخراج الخصائص الحصول على معلومات حول مستند PDF. الخصائص المتاحة التي قد تهمك: FileName، Title، Author، Subject، Keywords، Created، Modified، Application، PDF Producer، Number of Pages.

تُستخدم نماذج PDF على نطاق واسع في التطبيقات، الاستبيانات، الفواتير، والعقود. تسمح للمستخدمين بإدخال المعلومات مباشرة في حقول تفاعلية. لكن بمجرد ملء النماذج، غالبًا ما تحتاج المؤسسات إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.

Getting Started

Why Choose PDF Extractor

  • مثالي للمطورين والشركات التي تدير محتوى بصري في التقارير والعروض والآرشيفات.
  • استخراج سريع وفعال لإعادة استخدام المحتوى بسهولة.
  • أوضاع استخراج متعددة لأقصى مرونة.
  • تكامل سلس مع .NET لتبسيط سير العمل.
  • أنظمة التشغيل المدعومة تشمل Windows 7-11، وWindows Server 2003-2022، macOS (10.12+)، وLinux.
  • الأطر المدعومة من 4.0 إلى 8.0.
  • متوافق مع إصدارات مختلفة من Microsoft Visual Studio.
  • وثائق مفصلة وعالية الجودة high-quality documentation

How to Extract Images with PDF Extractor

  • Configure ImageExtractorOptions with the input file path and other necessary settings
  • Call PdfExtractor.Extract with an instance of ExtractImagesOptions as parameter
  • Access the extracted images through the ResultContainer.ResultCollection

Via .NET


How to Extract Text from PDF

  • Create instances of ExtractTextOptions and set input PDF
  • Call PdfExtractor.Extract with an instance of ExtractTextOptions as parameter and access the extracted text

Via .NET


How to Export PDF fields data

  • Create an instance of ExtractFormDataToDsvOptions to configure the process of exporting data to CSV
  • Add input and output files to the options
  • Call the PdfExtractor.Extract method, passing the options as a parameter

Via .NET


How to Extract Properties from PDF

Via .NET


الأسئلة الشائعة

ما هو PDF Extractor؟

PDF Extractor for .NET أداة قوية صُممت لاستخراج الصور، النص، البيانات الوصفية من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يتم دمجها بسلاسة في تطبيق .NET الخاص بك،提供 حلًا سهل الاستخدام للوصول إلى المحتوى البصري من ملفات PDF.

هل يمكنني استخدام PDF Extractor for .NET في عمليات PDF أخرى؟

لا، هذه الإضافة مخصصة فقط للاستخراج من ملفات PDF. للمهام الأخرى المتعلقة بـ PDF، يمكنك استكشاف الإضافات الإضافية المتاحة في مكتبة Documentize أو الاستفادة من إمكاناتها الكاملة لمعالجة المستندات.

لماذا قد أحتاج إلى استخراج النص/الصور/البيانات الوصفية/بيانات النموذج من PDF؟

استخراج هذه البيانات يمكن أن يكون مفيدًا لتحليل المستندات، إعداد التقارير، العمل مع الذكاء الاصطناعي.

ما هي صيغ الإخراج التي يدعمها؟

حالياً تقوم هذه الإضافة باستخراج الصور بصيغة PNG. تصدير بيانات النماذج يتم بشكل خاص إلى صيغة CSV. إذا كنت بحاجة إلى صيغ أخرى مثل JSON أو XML، قد تحتاج إلى استخدام أدوات إضافية أو تخصيص الإخراج بنفسك.

هل يمكنني استخراج النص من ملفات PDF الممسوحة ضوئيًا؟

إذا كان PDF ممسوحًا ضوئيًا أو يحتوي على صور للنص، قد يتطلب الأمر عملية OCR (التعرف الضوئي على الأحرف) لتحويل النص المستند إلى صورة إلى صيغة قابلة للتحرير.

 عربي