1. Produk
  2.   PDF Extractor

PDF Extractor in C#/.NET

Ekstrak gambar, teks, metadata, dan data formulir dari dokumen PDF

PDF Extractor

Ekstrak Data dari PDF di C# dengan PDF Extractor. PDF banyak digunakan untuk menyimpan dokumen karena mempertahankan format di berbagai perangkat. Namun, bekerja dengan PDF sering memerlukan ekstraksi konten spesifik—seperti gambar, teks, metadata, atau data terstruktur—untuk penggunaan kembali, analisis, atau penyuntingan. Dengan menguasai ekstraksi PDF, Anda dapat menghemat waktu, memperbaiki alur kerja, dan mendapatkan wawasan lebih dalam dari file yang Anda kerjakan.

Fitur Utama

PDF sering berisi logo, diagram, foto, atau gambar hasil scan. Mengekstrak gambar-gambar ini memungkinkan Anda menggunakannya kembali tanpa harus menyalin seluruh halaman. Ekstraksi Gambar Resolusi Tinggi – Mengambil gambar persis seperti yang muncul di PDF untuk penggunaan profesional.

Ekstraksi teks memungkinkan Anda mengubah konten yang dapat dibaca pada PDF menjadi teks yang dapat diedit. Ini sangat membantu ketika Anda perlu menggunakan kembali atau menganalisis konten tertulis. Pilih dari tiga mode presisi untuk memenuhi kebutuhan Anda:

Pure Mode — Menjaga format asli untuk output terstruktur

Raw Mode — Mengekstrak teks polos tanpa format

Flatten Mode — Menghilangkan karakter khusus dan format untuk teks bersih dan minimal

Ekstraksi properti memberikan informasi tentang dokumen PDF. Properti yang tersedia yang mungkin menarik bagi Anda: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Formulir PDF banyak digunakan dalam aplikasi, survei, faktur, dan kontrak. Mereka memungkinkan pengguna memasukkan informasi langsung ke bidang interaktif. Namun begitu formulir diisi, organisasi sering perlu mengekspor data tersebut untuk penyimpanan, pelaporan, atau analisis.

Memulai

Mengapa Memilih PDF Extractor

  • Ideal untuk pengembang dan bisnis yang mengelola konten visual dalam laporan, presentasi, dan arsip.
  • Ekstraksi cepat dan efisien untuk penggunaan kembali konten yang mudah.
  • Berbagai mode ekstraksi untuk fleksibilitas maksimal.
  • Integrasi .NET yang mulus untuk menyederhanakan alur kerja.
  • Sistem operasi yang didukung meliputi Windows 7-11, dan Windows Server 2003-2022, macOS (10.12+), dan Linux.
  • Framework yang didukung dari 4.0 hingga 8.0.
  • Kompatibel dengan berbagai versi Microsoft Visual Studio.
  • Dokumentasi yang detail dan high-quality documentation

Cara Mengekstrak Gambar dengan PDF Extractor

  • Konfigurasikan ImageExtractorOptions dengan jalur file input dan pengaturan lain yang diperlukan
  • Panggil PdfExtractor.Extract dengan instance ExtractImagesOptions sebagai parameter
  • Akses gambar yang diekstrak melalui ResultContainer.ResultCollection


Cara Mengekstrak Teks dari PDF

  • Buat instance ExtractTextOptions dan atur PDF input
  • Panggil PdfExtractor.Extract dengan instance ExtractTextOptions sebagai parameter dan akses teks yang diekstrak


Cara Mengekspor Data Formulir PDF

  • Buat instance ExtractFormDataToDsvOptions untuk mengkonfigurasi proses ekspor data ke CSV
  • Tambahkan file input dan output ke opsi
  • Panggil metode PdfExtractor.Extract, mengirimkan opsi sebagai parameter


Cara Mengekstrak Properti dari PDF


Pertanyaan yang Sering Diajukan

Apa itu PDF Extractor?

PDF Extractor untuk .NET adalah alat kuat yang dirancang untuk mengekstrak gambar, teks, metadata dari dokumen PDF, atau Data Formulir dalam PDF secara cepat dan mudah. Ia terintegrasi mulus ke dalam aplikasi .NET Anda, menawarkan solusi ramah pengguna untuk mengakses konten visual dari PDF.

Dapatkah saya menggunakan PDF Extractor untuk .NET untuk operasi PDF lainnya?

Tidak, komponen ini khusus untuk ekstraksi dari PDF. Untuk tugas PDF lainnya, Anda dapat menjelajahi komponen tambahan yang tersedia di pustaka Documentize atau memanfaatkan kemampuan lengkapnya untuk pemrosesan dokumen.

Mengapa saya perlu mengekstrak teks/gambar/metadata/data formulir dari PDF?

Mengekstrak data ini dapat berguna untuk menganalisis dokumen, menyiapkan laporan, bekerja dengan AI.

Format output apa saja yang didukung?

Saat ini komponen ini mengekstrak gambar dalam format PNG. Data formulir diekspor khusus ke format CSV. Jika Anda membutuhkan format lain seperti JSON atau XML, Anda mungkin perlu menggunakan alat tambahan atau menyesuaikan output sendiri.

Dapatkah saya mengekstrak teks dari PDF yang dipindai?

Jika PDF dipindai atau berisi gambar teks, proses OCR (Optical Character Recognition) mungkin diperlukan untuk mengubah teks berbasis gambar menjadi format yang dapat diedit.

 Indonesia