Extract Data from PDF in C# with PdfExtractor. PDF banyak digunakan untuk menyimpan dokumen karena mereka mempertahankan format pada berbagai perangkat. Namun, bekerja dengan PDF sering memerlukan pengekstrakan konten tertentu—seperti gambar, teks, metadata, atau data terstruktur—untuk penggunaan kembali, analisis, atau penyuntingan. Dengan menguasai ekstraksi PDF, Anda dapat menghemat waktu, meningkatkan alur kerja, dan memperoleh wawasan yang lebih mendalam dari file yang Anda kerjakan.
Key Features
PDF sering berisi logo, diagram, foto, atau gambar yang dipindai. Mengekstrak gambar-gambar ini memungkinkan Anda menggunakannya kembali tanpa harus menyalin seluruh halaman. High-Resolution Image Extraction – Mengambil gambar persis seperti yang muncul dalam PDF untuk keperluan profesional.
Ekstraksi teks memungkinkan Anda mengubah konten yang dapat dibaca dari PDF menjadi teks yang dapat diedit. Ini sangat membantu saat Anda perlu menggunakan kembali atau menganalisis konten tertulis. Pilih dari tiga mode presisi untuk memenuhi kebutuhan Anda:
Pure Mode — Menjaga format asli untuk output terstruktur
Raw Mode — Mengekstrak teks polos tanpa format
Flatten Mode — Menghapus karakter khusus dan format untuk teks bersih yang minimal
Ekstraksi properti memberi Anda informasi tentang dokumen PDF. Properti yang tersedia yang mungkin menarik bagi Anda: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
Formulir PDF banyak digunakan dalam aplikasi, survei, faktur, dan kontrak. Mereka memungkinkan pengguna memasukkan informasi langsung ke bidang interaktif. Namun setelah formulir diisi, organisasi sering perlu mengekstrak data tersebut untuk penyimpanan, pelaporan, atau analisis.
using Documentize;.License.Set("license.lic"); - Optional.ImageExtractorOptions with the input file path and other necessary settingsPdfExtractor.Extract with an instance of ExtractImagesOptions as parameterResultContainer.ResultCollectionExtractTextOptions and set input PDFPdfExtractor.Extract with an instance of ExtractTextOptions as parameter and access the extracted textExtractFormDataToDsvOptions to configure the process of exporting data to CSVPdfExtractor.Extract method, passing the options as a parameterPDF Extractor for .NET is a powerful tool designed to extract images, text, metadata from PDF documents, or Form Data in PDF quickly and easily. It seamlessly integrates into your .NET application, offering a user-friendly solution for accessing visual content from PDFs.
No, this plugin is specifically for extraction from PDFs. For other PDF-related tasks, you can explore the additional plugins available in Documentize library or leverage its full capabilities for document processing.
Extracting this data can be useful for analyze documents, prepare reports, work with AI.
Currently this plugin extracts images in PNG format. Forms data exports specifically into CSV format. If you need other formats like JSON or XML, you may need to use additional tools or customize the output yourself.
If the PDF is scanned or contains images of text, an OCR (Optical Character Recognition) process may be required to convert the image-based text into an editable format.