استخراج البيانات من PDF في C# باستخدام PDF Extractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر الأجهزة المختلفة. ومع ذلك، غالبًا ما يتطلب العمل مع PDF استخراج محتوى محدد—مثل الصور، النص، البيانات الوصفية، أو البيانات المنظمة—لإعادة الاستخدام أو التحليل أو التحرير. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، تحسين سير العمل، والحصول على رؤى أعمق من الملفات التي تتعامل معها.
الميزات الرئيسية
غالبًا ما تحتوي ملفات PDF على شعارات، مخططات، صور أو مسح ضوئي للصور. يسمح استخراج هذه الصور بإعادة استخدامها دون الحاجة إلى نسخ الصفحات بالكامل. استخراج صور بدقة عالية – استرجاع الصور كما تظهر في PDF للاستخدام الاحترافي.
يتيح لك استخراج النص تحويل المحتوى القابل للقراءة في PDF إلى نص قابل للتحرير. هذا مفيد بشكل خاص عندما تحتاج إلى إعادة توظيف أو تحليل المحتوى المكتوب. اختر من بين ثلاث أوضاع دقة لتلبية احتياجاتك:
الوضع النقي — يحافظ على التنسيق الأصلي لإخراج منظم
الوضع الخام — يستخرج النص العادي بدون تنسيق
وضع التسوية — يزيل الأحرف الخاصة والتنسيق للحصول على نص نظيف ومبسط
يسمح استخراج الخصائص باستخلاص معلومات حول مستند PDF. الخصائص المتاحة التي قد تهمك: FileName، Title، Author، Subject، Keywords، Created، Modified، Application، PDF Producer، Number of Pages.
تُستخدم نماذج PDF على نطاق واسع في التطبيقات، الاستطلاعات، الفواتير، والعقود. تسمح للمستخدمين بإدخال معلومات مباشرة في الحقول التفاعلية. ولكن بمجرد ملء النماذج، غالبًا ما تحتاج المؤسسات إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.
using Documentize;.License.Set("license.lic"); - اختياري.ImageExtractorOptions بمسار ملف الإدخال والإعدادات الضرورية الأخرىPdfExtractor.Extract مع مثيل من ExtractImagesOptions كمعاملResultContainer.ResultCollectionExtractTextOptions وتحديد PDF الإدخالPdfExtractor.Extract مع مثيل من ExtractTextOptions كمعامل والوصول إلى النص المستخرجExtractFormDataToDsvOptions لتكوين عملية تصدير البيانات إلى CSVPdfExtractor.Extract، مع تمرير الخيارات كمعاملPDF Extractor for .NET هو أداة قوية مصممة لاستخراج الصور، النص، البيانات الوصفية من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يندمج بسلاسة في تطبيق .NET الخاص بك، مقدماً حلاً سهل الاستخدام للوصول إلى المحتوى المرئي من ملفات PDF.
لا، هذه الإضافة مخصصة فقط للاستخراج من ملفات PDF. للمهام الأخرى المتعلقة بـ PDF، يمكنك استكشاف الإضافات الإضافية المتوفرة في مكتبة Documentize أو الاستفادة من كامل إمكانياتها لمعالجة المستندات.
استخراج هذه البيانات يمكن أن يكون مفيدًا لتحليل المستندات، إعداد التقارير، والعمل مع الذكاء الاصطناعي.
حاليًا هذه الإضافة تستخرج الصور بصيغة PNG. تصدير بيانات النماذج يتم تحديدًا إلى صيغة CSV. إذا كنت تحتاج إلى صيغ أخرى مثل JSON أو XML، قد تحتاج إلى استخدام أدوات إضافية أو تخصيص الإخراج بنفسك.
إذا كان PDF ممسوحًا ضوئيًا أو يحتوي على صور لنص، قد تحتاج إلى عملية OCR (التعرف الضوئي على الأحرف) لتحويل النص القائم على الصورة إلى صيغة قابلة للتحرير.