Ekstrak Data dari PDF di C# dengan PdfExtractor.
PDF banyak digunakan untuk menyimpan dokumen karena dapat mempertahankan format di berbagai perangkat. Namun, bekerja dengan PDF sering memerlukan ekstraksi konten spesifik—seperti gambar, teks, metadata, atau data terstruktur—untuk digunakan kembali, analisis, atau penyuntingan. Dengan menguasai ekstraksi PDF, Anda dapat menghemat waktu, memperbaiki alur kerja, dan mendapatkan wawasan lebih dalam dari file yang Anda gunakan.
Fitur Utama
PDF sering berisi logo, grafik, foto, atau gambar hasil pemindaian. Mengekstrak gambar-gambar ini memungkinkan Anda menggunakannya kembali tanpa harus menyalin seluruh halaman.
Ekstraksi teks memungkinkan Anda mengonversi konten yang dapat dibaca dalam PDF menjadi teks yang dapat diedit. Ini sangat membantu ketika Anda perlu memanfaatkan kembali atau menganalisis konten tertulis.
Ekstraksi properti memberikan informasi tentang dokumen PDF. Properti yang mungkin menarik bagi Anda: Title, Author, Subject, Keywords, Number of Pages.
Formulir PDF banyak digunakan dalam aplikasi, survei, faktur, dan kontrak. Formulir memungkinkan pengguna memasukkan informasi langsung ke bidang interaktif. Namun begitu formulir diisi, organisasi sering perlu mengekspor data tersebut untuk penyimpanan, pelaporan, atau analisis.
License.Set("license.lic"); OpsionalImageExtractorOptions dengan jalur file input dan pengaturan lainnya yang diperlukanPdfExtractor.ExtractImages dengan sebuah instance dari ExtractImagesOptions sebagai parameterResultContainer.ResultCollectionTextExtractorOptionsTextExtractorOptions.AddInputPdfExtractor.ExtractText dengan sebuah instance dari TextExtractorOptions sebagai parameterResultContainer.ResultCollectionExtractFormDataToDsvOptions untuk mengonfigurasi proses ekspor data ke CSVFormExporter.ExtractFormData, memberikan opsi sebagai parameterPDF Extractor untuk .NET adalah alat yang kuat dirancang untuk mengekstrak gambar, teks, metadata dari dokumen PDF, atau Data Formulir dalam PDF secara cepat dan mudah. Ia terintegrasi mulus ke dalam aplikasi .NET Anda, menawarkan solusi yang ramah pengguna untuk mengakses konten visual dari PDF.
Tidak, plugin ini khusus untuk ekstraksi dari PDF. Untuk tugas PDF lainnya, Anda dapat menjelajahi plugin tambahan yang tersedia di perpustakaan Documentize atau memanfaatkan kemampuan lengkapnya untuk pemrosesan dokumen.
Mengekstrak data ini dapat berguna untuk menganalisis dokumen, menyiapkan laporan, bekerja dengan AI.
Saat ini plugin ini mengekstrak gambar dalam format PNG. Data formulir diekspor khusus ke format CSV. Jika Anda memerlukan format lain seperti JSON atau XML, Anda mungkin perlu menggunakan alat tambahan atau menyesuaikan output secara manual.
Jika PDF dipindai atau berisi gambar teks, proses OCR (Optical Character Recognition) mungkin diperlukan untuk mengonversi teks berbasis gambar menjadi format yang dapat diedit.