PDF Extractor

Ekstrak Data dari PDF di C# dengan PDF Extractor. PDF banyak digunakan untuk menyimpan dokumen karena mempertahankan format di berbagai perangkat. Namun, bekerja dengan PDF sering memerlukan ekstraksi konten spesifik—seperti gambar, teks, metadata, atau data terstruktur—untuk penggunaan kembali, analisis, atau penyuntingan. Dengan menguasai ekstraksi PDF, Anda dapat menghemat waktu, memperbaiki alur kerja, dan mendapatkan wawasan lebih dalam dari file yang Anda kerjakan.

Fitur Utama

🔹 Ekstrak Gambar

PDF sering berisi logo, diagram, foto, atau gambar hasil scan. Mengekstrak gambar-gambar ini memungkinkan Anda menggunakannya kembali tanpa harus menyalin seluruh halaman. Ekstraksi Gambar Resolusi Tinggi – Mengambil gambar persis seperti yang muncul di PDF untuk penggunaan profesional.

🔹 Ekstrak Teks

Ekstraksi teks memungkinkan Anda mengubah konten yang dapat dibaca pada PDF menjadi teks yang dapat diedit. Ini sangat membantu ketika Anda perlu menggunakan kembali atau menganalisis konten tertulis. Pilih dari tiga mode presisi untuk memenuhi kebutuhan Anda:

Pure Mode — Menjaga format asli untuk output terstruktur

Raw Mode — Mengekstrak teks polos tanpa format

Flatten Mode — Menghilangkan karakter khusus dan format untuk teks bersih dan minimal

🔹 Ekstrak Properti (Metadata)

Ekstraksi properti memberikan informasi tentang dokumen PDF. Properti yang tersedia yang mungkin menarik bagi Anda: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

🔹 Ekspor data dari AcroForms

Formulir PDF banyak digunakan dalam aplikasi, survei, faktur, dan kontrak. Mereka memungkinkan pengguna memasukkan informasi langsung ke bidang interaktif. Namun begitu formulir diisi, organisasi sering perlu mengekspor data tersebut untuk penyimpanan, pelaporan, atau analisis.

Memulai

Unduh file assembly dari Here atau NuGet.
Referensikan Documentize di proyek .NET Anda.
Tambahkan using Documentize;.
Atur lisensi Anda License.Set("license.lic"); - Opsional.

Mengapa Memilih PDF Extractor

Ideal untuk pengembang dan bisnis yang mengelola konten visual dalam laporan, presentasi, dan arsip.
Ekstraksi cepat dan efisien untuk penggunaan kembali konten yang mudah.
Berbagai mode ekstraksi untuk fleksibilitas maksimal.
Integrasi .NET yang mulus untuk menyederhanakan alur kerja.
Sistem operasi yang didukung meliputi Windows 7-11, dan Windows Server 2003-2022, macOS (10.12+), dan Linux.
Framework yang didukung dari 4.0 hingga 8.0.
Kompatibel dengan berbagai versi Microsoft Visual Studio.
Dokumentasi yang detail dan high-quality documentation

Cara Mengekstrak Gambar dengan PDF Extractor

Konfigurasikan ImageExtractorOptions dengan jalur file input dan pengaturan lain yang diperlukan
Panggil PdfExtractor.Extract dengan instance ExtractImagesOptions sebagai parameter
Akses gambar yang diekstrak melalui ResultContainer.ResultCollection

Cara Mengekstrak Teks dari PDF

Buat instance ExtractTextOptions dan atur PDF input
Panggil PdfExtractor.Extract dengan instance ExtractTextOptions sebagai parameter dan akses teks yang diekstrak

Cara Mengekspor Data Formulir PDF

Buat instance ExtractFormDataToDsvOptions untuk mengkonfigurasi proses ekspor data ke CSV
Tambahkan file input dan output ke opsi
Panggil metode PdfExtractor.Extract, mengirimkan opsi sebagai parameter

Pertanyaan yang Sering Diajukan

Apa itu PDF Extractor?

PDF Extractor untuk .NET adalah alat kuat yang dirancang untuk mengekstrak gambar, teks, metadata dari dokumen PDF, atau Data Formulir dalam PDF secara cepat dan mudah. Ia terintegrasi mulus ke dalam aplikasi .NET Anda, menawarkan solusi ramah pengguna untuk mengakses konten visual dari PDF.

Dapatkah saya menggunakan PDF Extractor untuk .NET untuk operasi PDF lainnya?

Tidak, komponen ini khusus untuk ekstraksi dari PDF. Untuk tugas PDF lainnya, Anda dapat menjelajahi komponen tambahan yang tersedia di pustaka Documentize atau memanfaatkan kemampuan lengkapnya untuk pemrosesan dokumen.

Mengapa saya perlu mengekstrak teks/gambar/metadata/data formulir dari PDF?

Mengekstrak data ini dapat berguna untuk menganalisis dokumen, menyiapkan laporan, bekerja dengan AI.

Format output apa saja yang didukung?

Saat ini komponen ini mengekstrak gambar dalam format PNG. Data formulir diekspor khusus ke format CSV. Jika Anda membutuhkan format lain seperti JSON atau XML, Anda mungkin perlu menggunakan alat tambahan atau menyesuaikan output sendiri.

Dapatkah saya mengekstrak teks dari PDF yang dipindai?

Jika PDF dipindai atau berisi gambar teks, proses OCR (Optical Character Recognition) mungkin diperlukan untuk mengubah teks berbasis gambar menjadi format yang dapat diedit.

PDF Extractor in C#/.NET

Ekstrak gambar, teks, metadata, dan data formulir dari dokumen PDF