1. Produk
  2.   PDF Extractor

PDF Extractor dalam C# .NET

Ekstrak gambar, teks, dan data dari formulir dalam dokumen PDF menggunakan Plugin Documentize .NET

PDF Extractor dalam C#

Ekstrak Gambar, Teks atau Data dari formulir dalam PDF dalam C# dengan PdfExtractor. PDF banyak digunakan untuk menyimpan dokumen karena mempertahankan format di berbagai perangkat. Namun, bekerja dengan PDF sering membutuhkan ekstraksi konten spesifik—seperti gambar, teks, atau data terstruktur—untuk digunakan kembali, dianalisis, atau diedit.

Fitur Utama PDF Extractor

PDF sering berisi logo, grafik, foto, atau gambar yang dipindai. Mengambil gambar ini memungkinkan Anda untuk menggunakannya kembali tanpa perlu menyalin seluruh halaman.

Ekstraksi teks memungkinkan Anda mengubah konten yang dapat dibaca dari PDF menjadi teks yang dapat diedit. Ini sangat berguna ketika Anda perlu memanfaatkan kembali atau menganalisis konten tulisan.

Formulir PDF banyak digunakan dalam aplikasi, survei, faktur, dan kontrak. Mereka memungkinkan pengguna untuk memasukkan informasi langsung ke dalam bidang interaktif. Namun setelah formulir diisi, organisasi sering perlu mengekstrak data tersebut untuk penyimpanan, pelaporan, atau analisis.

Mengekstrak gambar, teks, dan data terstruktur dari PDF mengubah file statis menjadi sumber daya yang dapat ditindaklanjuti. Apakah Anda menggunakan kembali grafik, mengedit konten tulisan, atau menganalisis tabel, fungsi ini membuka potensi penuh dokumen Anda. Dengan menguasai ekstraksi PDF, Anda dapat menghemat waktu, meningkatkan alur kerja, dan mendapatkan wawasan yang lebih dalam dari file yang Anda kerjakan.

Cara Mengekstrak Gambar dengan PDF Extractor

  • Rujuk Documentize dalam proyek .NET Anda
  • Atur kunci lisensi Anda
  • Konfigurasi ImageExtractorOptions dengan jalur file input dan pengaturan lainnya yang diperlukan
  • Panggil PdfExtractor.ExtractImages dengan instance dari ExtractImagesOptions sebagai parameter
  • Jalankan proses ekstraksi gambar menggunakan plugin
  • Akses gambar yang diekstrak melalui ResultContainer.ResultCollection

Memulai

  • Dapatkan file assembly dari unduhan atau ambil paket dari NuGet untuk menambahkan Documentize langsung ke ruang kerja Anda.
  • Ideal untuk pengembang dan bisnis yang mengelola konten visual dalam laporan, presentasi, dan arsip.


Cara Mengekstrak Teks dari PDF melalui .NET

  • Rujuk Documentize dalam proyek Anda
  • Atur kunci lisensi Anda
  • Buat instance dari TextExtractorOptions
  • Tambahkan dokumen PDF input menggunakan TextExtractorOptions.AddInput
  • Panggil PdfExtractor.ExtractText dengan instance dari TextExtractorOptions sebagai parameter
  • Akses teks yang diekstrak menggunakan ResultContainer.ResultCollection

Mengapa Memilih PDF Extractor?

  • Ekstraksi teks yang cepat dan efisien untuk kemudahan penggunaan kembali konten.
  • Beberapa mode ekstraksi untuk fleksibilitas maksimum.
  • Integrasi .NET yang mulus untuk penyederhanaan alur kerja.
  • Aksesibilitas yang lebih baik dengan membuat konten mudah diedit, dibagikan, atau diarsipkan.
  • Dokumentasi yang detail dan berkualitas tinggi


Cara Mengekspor Data PDF

  • Rujuk Documentize dalam proyek Anda
  • Atur kunci lisensi Anda
  • Buat instance dari ExtractFormDataToDsvOptions untuk mengonfigurasi proses mengekspor data ke CSV
  • Tambahkan file input dan output ke opsi
  • Panggil metode FormExporter.ExtractFormData, mengoper opsi sebagai parameter
  • Akses hasil menggunakan ResultContainer.ResultCollection

Sistem yang Didukung

  • Sistem operasi yang didukung mencakup Windows 7-11, dan Windows Server 2003-2022, macOS (10.12+), dan Linux.
  • Kerangka kerja yang didukung dari 4.0 hingga 8.0.
  • Kompatibel dengan berbagai versi Microsoft Visual Studio.


Pertanyaan yang Sering Diajukan

Apa itu PDF Extractor?

PDF Extractor untuk .NET adalah alat yang kuat dirancang untuk mengekstrak gambar, teks dari dokumen PDF, atau Data Form di PDF dengan cepat dan mudah. Ini terintegrasi dengan mulus ke dalam aplikasi .NET Anda, menawarkan solusi yang ramah pengguna untuk mengakses konten visual dari PDF.

Dapatkah saya menggunakan PDF Extractor untuk .NET untuk operasi PDF lainnya?

Tidak, plugin ini khusus untuk ekstraksi dari PDF. Untuk tugas lain yang terkait dengan PDF, Anda dapat menjelajahi plugin tambahan yang tersedia di perpustakaan Documentize atau memanfaatkan kemampuan penuhnya untuk pemrosesan dokumen.

Mengapa saya perlu mengekstrak teks/gambar/data formulir dari PDF?

Mengekstrak data ini dapat berguna untuk menganalisis dokumen, menyiapkan laporan, bekerja dengan AI.

Format output apa yang didukung?

Saat ini, plugin ini mengekstrak gambar dalam format PNG. Ekspor data formulir secara khusus ke dalam format CSV. Jika Anda memerlukan format lain seperti JSON atau XML, Anda mungkin perlu menggunakan alat tambahan atau menyesuaikan output sendiri.

Dapatkah saya mengekstrak teks dari PDF yang dipindai?

Jika PDF dipindai atau berisi gambar teks, proses OCR (Optical Character Recognition) mungkin diperlukan untuk mengubah teks berbasis gambar menjadi format yang dapat diedit.

 Indonesia