PDF Extractor

Extract Data from PDF in C# with PDF Extractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر الأجهزة المختلفة. ومع ذلك، غالبًا ما يتطلب العمل مع ملفات PDF استخراج محتوى محدد—مثل الصور، النص، البيانات الوصفية، أو البيانات المنظمة— لإعادة استخدامها، أو للتحليل، أو للتحرير. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، تحسين سير العمل، واكتساب رؤى أعمق من الملفات التي تتعامل معها.

Key Features

🔹 Extract Images

غالبًا ما تحتوي ملفات PDF على شعارات، رسوم بيانية، صور أو صور ممسوحة ضوئيًا. يسمح لك استخراج هذه الصور بإعادة استخدامها دون الحاجة إلى نسخ الصفحات بأكملها. استخراج الصور بدقة عالية – استرجع الصور كما تظهر بالضبط في ملف PDF للاستخدام المهني.

🔹 Extract Text

يتيح لك استخراج النص تحويل المحتوى القابل للقراءة في PDF إلى نص قابل للتحرير. هذا مفيد خاصةً عندما تحتاج إلى إعادة استخدام المحتوى المكتوب أو تحليله. اختر من بين ثلاثة أوضاع دقة لتناسب احتياجاتك:

Pure Mode — يحتفظ بالتنسيق الأصلي لإنتاج مخرجات منظمة

Raw Mode — يستخرج النص العادي بدون تنسيق

Flatten Mode — يزيل الأحرف الخاصة والتنسيق للحصول على نص نظيف ومبسط

🔹 Extract Properties (Metadata)

يتيح لك استخراج الخصائص الحصول على معلومات حول مستند PDF. الخصائص المتاحة التي قد تهمك: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

🔹 Export data from AcroForms

تُستخدم نماذج PDF على نطاق واسع في التطبيقات، الاستطلاعات، الفواتير، والعقود. تسمح للمستخدمين بإدخال المعلومات مباشرةً في الحقول التفاعلية. ولكن بمجرد ملء النماذج، غالبًا ما تحتاج المؤسسات إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.

Getting Started

قم بتنزيل ملفات التجميع من Here أو NuGet.
أشر إلى Documentize في مشروع .NET الخاص بك.
أضف using Documentize;.
اضبط رخصتك License.Set("license.lic"); - Optional.

Why Choose PDF Extractor

مثالي للمطورين والشركات التي تدير المحتوى البصري في التقارير، العروض، والأرشيفات.
استخراج سريع وفعال لإعادة استخدام المحتوى بسهولة.
أوضاع استخراج متعددة لأقصى مرونة.
تكامل سلس مع .NET لتبسيط سير العمل.
أنظمة التشغيل المدعومة تشمل Windows 7-11، وWindows Server 2003-2022، macOS (10.12+)، وLinux.
الأطر المدعومة من 4.0 إلى 8.0.
متوافق مع إصدارات مختلفة من Microsoft Visual Studio.
توثيق تفصيلي وhigh-quality documentation

How to Extract Images with PDF Extractor

قم بتكوين ImageExtractorOptions مع مسار ملف الإدخال والإعدادات الضرورية الأخرى
استدعِ PdfExtractor.Extract مع كائن ExtractImagesOptions كمعامل
احصل على الصور المستخرجة عبر ResultContainer.ResultCollection

How to Extract Text from PDF

أنشئ كائنات من ExtractTextOptions وحدد ملف PDF الإدخالي
استدعِ PdfExtractor.Extract مع كائن ExtractTextOptions كمعامل واحصل على النص المستخرج

الأسئلة الشائعة

What is PDF Extractor?

PDF Extractor for .NET هو أداة قوية مصممة لاستخراج الصور، النص، البيانات الوصفية من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يندمج بسلاسة في تطبيق .NET الخاص بك، مُقدمًا حلاً سهل الاستخدام للوصول إلى المحتوى البصري من ملفات PDF.

Can I use PDF Extractor for .NET for other PDF operations?

لا، هذا المكوّن مخصص فقط للاستخراج من ملفات PDF. للمهام الأخرى المتعلقة بـ PDF، يمكنك استكشاف المكونات الإضافية المتوفرة في مكتبة Documentize أو الاستفادة من قدراتها الكاملة لمعالجة المستندات.

Why would I need to extract text/images/metadata/form data from a PDF?

استخراج هذه البيانات يمكن أن يكون مفيدًا لتحليل المستندات، إعداد التقارير، والعمل مع الذكاء الاصطناعي.

What types of output formats does it support?

حاليًا يقتصر هذا المكوّن على استخراج الصور بصيغة PNG. تصدير بيانات النماذج يتم تحديدًا إلى صيغة CSV. إذا كنت بحاجة إلى صيغ أخرى مثل JSON أو XML، قد تحتاج إلى استخدام أدوات إضافية أو تخصيص المخرجات بنفسك.

Can I extract text from scanned PDFs?

إذا كان ملف PDF ممسوحًا ضوئيًا أو يحتوي على صور للنص، قد يتطلب الأمر عملية OCR (التعرف الضوئي على الأحرف) لتحويل النص المستند إلى صورة إلى صيغة قابلة للتحرير.

PDF Extractor in C#/.NET

استخراج الصور والنص والبيانات الوصفية وبيانات النماذج من مستند PDF