Extract Data from PDF in C# with PdfExtractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر الأجهزة المختلفة. ومع ذلك، غالبًا ما يتطلب العمل مع PDF استخراج محتوى محدد—مثل الصور، النص، البيانات الوصفية، أو البيانات المهيكلة—لإعادة الاستخدام أو التحليل أو التحرير. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، تحسين سير العمل، واكتساب رؤى أعمق من الملفات التي تتعامل معها.
Key Features
غالبًا ما تحتوي ملفات PDF على شعارات، مخططات، صور فوتوغرافية أو صور ممسوحة ضوئيًا. يتيح لك استخراج هذه الصور إعادة استخدامها دون الحاجة إلى نسخ صفحات كاملة. استخراج صور عالية الدقة – استرجاع الصور كما تظهر بالضبط في PDF للاستخدام الاحترافي.
يتيح لك استخراج النص تحويل المحتوى القابل للقراءة في PDF إلى نص قابل للتحرير. هذا مفيد بشكل خاص عندما تحتاج إلى إعادة استخدام المحتوى المكتوب أو تحليله. اختر من بين ثلاث أوضاع دقة لتناسب احتياجاتك:
وضع Pure — يحتفظ بالتنسيق الأصلي لإخراج منظم
وضع Raw — يستخرج النص العادي دون تنسيق
وضع Flatten — يزيل الأحرف الخاصة والتنسيق للحصول على نص نظيف وم Minimal
يتيح لك استخراج الخصائص الحصول على معلومات حول مستند PDF. الخصائص المتاحة التي قد تهمك: FileName، Title، Author، Subject، Keywords، Created، Modified، Application، PDF Producer، Number of Pages.
تُستخدم نماذج PDF على نطاق واسع في التطبيقات، الاستبيانات، الفواتير، والعقود. تسمح للمستخدمين بإدخال المعلومات مباشرة في حقول تفاعلية. لكن بمجرد ملء النماذج، غالبًا ما تحتاج المؤسسات إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.
using Documentize;.License.Set("license.lic"); - Optional.ImageExtractorOptions with the input file path and other necessary settingsPdfExtractor.Extract with an instance of ExtractImagesOptions as parameterResultContainer.ResultCollectionExtractTextOptions and set input PDFPdfExtractor.Extract with an instance of ExtractTextOptions as parameter and access the extracted textExtractFormDataToDsvOptions to configure the process of exporting data to CSVPdfExtractor.Extract method, passing the options as a parameterPDF Extractor for .NET أداة قوية صُممت لاستخراج الصور، النص، البيانات الوصفية من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يتم دمجها بسلاسة في تطبيق .NET الخاص بك،提供 حلًا سهل الاستخدام للوصول إلى المحتوى البصري من ملفات PDF.
لا، هذه الإضافة مخصصة فقط للاستخراج من ملفات PDF. للمهام الأخرى المتعلقة بـ PDF، يمكنك استكشاف الإضافات الإضافية المتاحة في مكتبة Documentize أو الاستفادة من إمكاناتها الكاملة لمعالجة المستندات.
استخراج هذه البيانات يمكن أن يكون مفيدًا لتحليل المستندات، إعداد التقارير، العمل مع الذكاء الاصطناعي.
حالياً تقوم هذه الإضافة باستخراج الصور بصيغة PNG. تصدير بيانات النماذج يتم بشكل خاص إلى صيغة CSV. إذا كنت بحاجة إلى صيغ أخرى مثل JSON أو XML، قد تحتاج إلى استخدام أدوات إضافية أو تخصيص الإخراج بنفسك.
إذا كان PDF ممسوحًا ضوئيًا أو يحتوي على صور للنص، قد يتطلب الأمر عملية OCR (التعرف الضوئي على الأحرف) لتحويل النص المستند إلى صورة إلى صيغة قابلة للتحرير.