1. المنتجات
  2.   مستخرج PDF

مستخرج PDF في C# .NET

استخراج الصور والنصوص والبيانات من نماذج في مستند PDF باستخدام مكون Documentize .NET

مستخرج PDF في C#

استخراج الصور والنصوص أو البيانات من نماذج في PDF في C# مع PdfExtractor. تُستخدم ملفات PDF على نطاق واسع لتخزين المستندات لأنها تحافظ على التنسيق عبر أجهزة مختلفة. ومع ذلك، يتطلب العمل مع PDF في كثير من الأحيان استخراج محتوى محدد — مثل الصور أو النصوص أو البيانات المنظمة — لإعادة الاستخدام أو التحليل أو التحرير.

الميزات الرئيسية لمستخرج PDF

تحتوي ملفات PDF غالبًا على شعارات أو مخططات أو صور أو صور ممسوحة ضوئيًا. يسمح استخراج هذه الصور بإعادة استخدامها دون الحاجة إلى نسخ الصفحات بالكامل.

يتيح استخراج النص تحويل المحتوى القابل للقراءة في PDF إلى نص قابل للتحرير. هذا مفيد بشكل خاص عندما تحتاج إلى إعادة استخدام أو تحليل المحتوى المكتوب.

تُستخدم نماذج PDF على نطاق واسع في التطبيقات والاستطلاعات والفواتير والعقود. تتيح للمستخدمين إدخال المعلومات مباشرة في الحقول التفاعلية. ولكن بمجرد ملء النماذج، تحتاج المؤسسات غالبًا إلى استخراج تلك البيانات للتخزين أو التقارير أو التحليل.

يؤدي استخراج الصور والنصوص والبيانات المنظمة من ملفات PDF إلى تحويل الملفات الثابتة إلى موارد قابلة للتنفيذ. سواء كنت تقوم بإعادة استخدام الرسوميات أو تحرير المحتوى المكتوب أو تحليل الجداول، فإن هذه الوظائف تفتح الإمكانيات الكاملة لمستنداتك. من خلال إتقان استخراج PDF، يمكنك توفير الوقت، وتحسين سير العمل، والحصول على رؤى أعمق من الملفات التي تعمل معها.

كيفية استخراج الصور باستخدام مستخرج PDF

  • اذكر Documentize في مشروعك .NET
  • اضبط مفاتيح الترخيص الخاصة بك
  • قم بتكوين ImageExtractorOptions مع مسار ملف الإدخال والإعدادات الضرورية الأخرى
  • استدعاء PdfExtractor.ExtractImages مع مثيل لـ ExtractImagesOptions كمعامل
  • تنفيذ عملية استخراج الصور باستخدام المكون
  • الوصول إلى الصور المستخرجة من خلال ResultContainer.ResultCollection

البدء

  • احصل على ملفات التجميع من التنزيلات أو احصل على الحزمة من NuGet لإضافة Documentize مباشرة إلى مساحة العمل الخاصة بك.
  • مثالي للمطورين والشركات التي تدير المحتوى المرئي في التقارير والعروض التقديمية والأرشيفات.


كيفية استخراج النص من PDF عبر .NET

  • اذكر Documentize في مشروعك
  • اضبط مفاتيح الترخيص الخاصة بك
  • إنشاء مثيلات من TextExtractorOptions
  • إضافة مستندات PDF المدخلة باستخدام TextExtractorOptions.AddInput
  • استدعاء PdfExtractor.ExtractText مع مثيل لـ TextExtractorOptions كمعامل
  • الوصول إلى النص المستخرج باستخدام ResultContainer.ResultCollection

لماذا تختار مستخرج PDF؟

  • استخراج نص سريع وفعال لإعادة استخدام المحتوى بسهولة.
  • أوضاع استخراج متعددة للحصول على أقصى قدر من المرونة.
  • تكامل سلس مع .NET لتبسيط سير العمل.
  • تحسين الوصول عن طريق جعل المحتوى سهل التحرير أو المشاركة أو الأرشفة.
  • وثائق مفصلة و عالية الجودة


كيفية تصدير بيانات PDF

  • اذكر Documentize في مشروعك
  • اضبط مفاتيح الترخيص الخاصة بك
  • إنشاء مثيل من ExtractFormDataToDsvOptions لتكوين عملية تصدير البيانات إلى CSV
  • إضافة ملفات الإدخال والإخراج إلى الخيارات
  • استدعاء الطريقة FormExporter.ExtractFormData، مع تمرير الخيارات كمعامل
  • الوصول إلى النتيجة باستخدام ResultContainer.ResultCollection

الأنظمة المدعومة

  • تشمل أنظمة التشغيل المدعومة Windows 7-11، وWindows Server 2003-2022، وmacOS (10.12+)، وLinux.
  • إطارات العمل المدعومة من 4.0 إلى 8.0.
  • متوافقة مع عدة إصدارات من Microsoft Visual Studio.


الأسئلة الشائعة

ما هو مستخرج PDF؟

مستخرج PDF لـ .NET هو أداة قوية مصممة لاستخراج الصور والنصوص من مستندات PDF، أو بيانات النماذج في PDF بسرعة وسهولة. يتكامل بسلاسة في تطبيق .NET الخاص بك، مما يوفر حلاً سهل الاستخدام للوصول إلى المحتوى المرئي من ملفات PDF.

هل يمكنني استخدام مستخرج PDF لـ .NET لعمليات PDF الأخرى؟

لا، هذه المكون مخصص بشكل خاص للاستخراج من PDF. بالنسبة لمهام PDF الأخرى، يمكنك استكشاف المكونات الإضافية المتاحة في مكتبة Documentize أو الاستفادة من قدراتها الكاملة في معالجة المستندات.

لماذا أحتاج إلى استخراج النصوص/الصور/بيانات النماذج من PDF؟

يمكن أن يكون استخراج هذه البيانات مفيدًا لتحليل المستندات، وإعداد التقارير، والعمل مع الذكاء الاصطناعي.

ما أنواع تنسيقات الإخراج التي يدعمها؟

حاليًا، يستخرج هذا المكون الصور بتنسيق PNG. نعم تصدر بيانات النماذج بشكل خاص إلى تنسيق CSV. إذا كنت بحاجة إلى تنسيقات أخرى مثل JSON أو XML، فقد تحتاج إلى استخدام أدوات إضافية أو تخصيص الإخراج بنفسك.

هل يمكنني استخراج النص من ملفات PDF الممسوحة ضوئيًا؟

إذا كان ملف PDF ممسوحًا ضوئيًا أو يحتوي على صور للنصوص، فقد تتطلب عملية التعرف الضوئي على الحروف (OCR) لتحويل النص المستند إلى صورة إلى تنسيق قابل للتحرير.

 عربي