Extract Data from PDF in C# with PDF Extractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر الأجهزة المختلفة. ومع ذلك، غالبًا ما يتطلب العمل مع ملفات PDF استخراج محتوى محدد—مثل الصور، النص، البيانات الوصفية، أو البيانات المنظمة— لإعادة استخدامها، أو للتحليل، أو للتحرير. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، تحسين سير العمل، واكتساب رؤى أعمق من الملفات التي تتعامل معها.
Key Features
غالبًا ما تحتوي ملفات PDF على شعارات، رسوم بيانية، صور أو صور ممسوحة ضوئيًا. يسمح لك استخراج هذه الصور بإعادة استخدامها دون الحاجة إلى نسخ الصفحات بأكملها. استخراج الصور بدقة عالية – استرجع الصور كما تظهر بالضبط في ملف PDF للاستخدام المهني.
يتيح لك استخراج النص تحويل المحتوى القابل للقراءة في PDF إلى نص قابل للتحرير. هذا مفيد خاصةً عندما تحتاج إلى إعادة استخدام المحتوى المكتوب أو تحليله. اختر من بين ثلاثة أوضاع دقة لتناسب احتياجاتك:
Pure Mode — يحتفظ بالتنسيق الأصلي لإنتاج مخرجات منظمة
Raw Mode — يستخرج النص العادي بدون تنسيق
Flatten Mode — يزيل الأحرف الخاصة والتنسيق للحصول على نص نظيف ومبسط
يتيح لك استخراج الخصائص الحصول على معلومات حول مستند PDF. الخصائص المتاحة التي قد تهمك: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
تُستخدم نماذج PDF على نطاق واسع في التطبيقات، الاستطلاعات، الفواتير، والعقود. تسمح للمستخدمين بإدخال المعلومات مباشرةً في الحقول التفاعلية. ولكن بمجرد ملء النماذج، غالبًا ما تحتاج المؤسسات إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.
using Documentize;.License.Set("license.lic"); - Optional.ImageExtractorOptions مع مسار ملف الإدخال والإعدادات الضرورية الأخرىPdfExtractor.Extract مع كائن ExtractImagesOptions كمعاملResultContainer.ResultCollectionExtractTextOptions وحدد ملف PDF الإدخاليPdfExtractor.Extract مع كائن ExtractTextOptions كمعامل واحصل على النص المستخرجExtractFormDataToDsvOptions لضبط عملية تصدير البيانات إلى CSVPdfExtractor.Extract، مع تمرير الخيارات كمعاملPDF Extractor for .NET هو أداة قوية مصممة لاستخراج الصور، النص، البيانات الوصفية من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يندمج بسلاسة في تطبيق .NET الخاص بك، مُقدمًا حلاً سهل الاستخدام للوصول إلى المحتوى البصري من ملفات PDF.
لا، هذا المكوّن مخصص فقط للاستخراج من ملفات PDF. للمهام الأخرى المتعلقة بـ PDF، يمكنك استكشاف المكونات الإضافية المتوفرة في مكتبة Documentize أو الاستفادة من قدراتها الكاملة لمعالجة المستندات.
استخراج هذه البيانات يمكن أن يكون مفيدًا لتحليل المستندات، إعداد التقارير، والعمل مع الذكاء الاصطناعي.
حاليًا يقتصر هذا المكوّن على استخراج الصور بصيغة PNG. تصدير بيانات النماذج يتم تحديدًا إلى صيغة CSV. إذا كنت بحاجة إلى صيغ أخرى مثل JSON أو XML، قد تحتاج إلى استخدام أدوات إضافية أو تخصيص المخرجات بنفسك.
إذا كان ملف PDF ممسوحًا ضوئيًا أو يحتوي على صور للنص، قد يتطلب الأمر عملية OCR (التعرف الضوئي على الأحرف) لتحويل النص المستند إلى صورة إلى صيغة قابلة للتحرير.