Ekstrak Data dari PDF di C# dengan PDF Extractor. PDF banyak digunakan untuk menyimpan dokumen karena mempertahankan format di berbagai perangkat. Namun, bekerja dengan PDF sering memerlukan ekstraksi konten spesifik—seperti gambar, teks, metadata, atau data terstruktur—untuk penggunaan kembali, analisis, atau penyuntingan. Dengan menguasai ekstraksi PDF, Anda dapat menghemat waktu, memperbaiki alur kerja, dan mendapatkan wawasan lebih dalam dari file yang Anda kerjakan.
Fitur Utama
PDF sering berisi logo, diagram, foto, atau gambar hasil scan. Mengekstrak gambar-gambar ini memungkinkan Anda menggunakannya kembali tanpa harus menyalin seluruh halaman. Ekstraksi Gambar Resolusi Tinggi – Mengambil gambar persis seperti yang muncul di PDF untuk penggunaan profesional.
Ekstraksi teks memungkinkan Anda mengubah konten yang dapat dibaca pada PDF menjadi teks yang dapat diedit. Ini sangat membantu ketika Anda perlu menggunakan kembali atau menganalisis konten tertulis. Pilih dari tiga mode presisi untuk memenuhi kebutuhan Anda:
Pure Mode — Menjaga format asli untuk output terstruktur
Raw Mode — Mengekstrak teks polos tanpa format
Flatten Mode — Menghilangkan karakter khusus dan format untuk teks bersih dan minimal
Ekstraksi properti memberikan informasi tentang dokumen PDF. Properti yang tersedia yang mungkin menarik bagi Anda: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
Formulir PDF banyak digunakan dalam aplikasi, survei, faktur, dan kontrak. Mereka memungkinkan pengguna memasukkan informasi langsung ke bidang interaktif. Namun begitu formulir diisi, organisasi sering perlu mengekspor data tersebut untuk penyimpanan, pelaporan, atau analisis.
using Documentize;.License.Set("license.lic"); - Opsional.ImageExtractorOptions dengan jalur file input dan pengaturan lain yang diperlukanPdfExtractor.Extract dengan instance ExtractImagesOptions sebagai parameterResultContainer.ResultCollectionExtractTextOptions dan atur PDF inputPdfExtractor.Extract dengan instance ExtractTextOptions sebagai parameter dan akses teks yang diekstrakExtractFormDataToDsvOptions untuk mengkonfigurasi proses ekspor data ke CSVPdfExtractor.Extract, mengirimkan opsi sebagai parameterPDF Extractor untuk .NET adalah alat kuat yang dirancang untuk mengekstrak gambar, teks, metadata dari dokumen PDF, atau Data Formulir dalam PDF secara cepat dan mudah. Ia terintegrasi mulus ke dalam aplikasi .NET Anda, menawarkan solusi ramah pengguna untuk mengakses konten visual dari PDF.
Tidak, komponen ini khusus untuk ekstraksi dari PDF. Untuk tugas PDF lainnya, Anda dapat menjelajahi komponen tambahan yang tersedia di pustaka Documentize atau memanfaatkan kemampuan lengkapnya untuk pemrosesan dokumen.
Mengekstrak data ini dapat berguna untuk menganalisis dokumen, menyiapkan laporan, bekerja dengan AI.
Saat ini komponen ini mengekstrak gambar dalam format PNG. Data formulir diekspor khusus ke format CSV. Jika Anda membutuhkan format lain seperti JSON atau XML, Anda mungkin perlu menggunakan alat tambahan atau menyesuaikan output sendiri.
Jika PDF dipindai atau berisi gambar teks, proses OCR (Optical Character Recognition) mungkin diperlukan untuk mengubah teks berbasis gambar menjadi format yang dapat diedit.