Trích xuất dữ liệu từ PDF trong C# với PdfExtractor. PDF được sử dụng rộng rãi để lưu trữ tài liệu vì chúng duy trì định dạng trên các thiết bị khác nhau. Tuy nhiên, làm việc với PDF thường đòi hỏi phải trích xuất nội dung cụ thể—như hình ảnh, văn bản, siêu dữ liệu hoặc dữ liệu có cấu trúc—để tái sử dụng, phân tích hoặc chỉnh sửa. Bằng cách thành thạo việc trích xuất PDF, bạn có thể tiết kiệm thời gian, cải thiện quy trình công việc và nắm bắt sâu hơn các thông tin từ các tệp mà bạn làm việc.
Tính năng chính
PDF thường chứa logo, biểu đồ, ảnh chụp hoặc hình ảnh quét. Việc trích xuất những hình ảnh này cho phép bạn tái sử dụng chúng mà không cần sao chép toàn bộ trang.
Trích xuất văn bản cho phép bạn chuyển nội dung có thể đọc được của PDF thành văn bản có thể chỉnh sửa. Điều này đặc biệt hữu ích khi bạn cần tái sử dụng hoặc phân tích nội dung viết.
Trích xuất thuộc tính cung cấp thông tin về tài liệu PDF. Các thuộc tính thường quan tâm bao gồm: Tiêu đề, Tác giả, Chủ đề, Từ khóa, Số trang.
Biểu mẫu PDF được sử dụng rộng rãi trong các ứng dụng, khảo sát, hoá đơn và hợp đồng. Chúng cho phép người dùng nhập thông tin trực tiếp vào các trường tương tác. Khi biểu mẫu đã được điền, các tổ chức thường cần trích xuất dữ liệu đó để lưu trữ, báo cáo hoặc phân tích.
License.Set("license.lic"); Tùy chọnImageExtractorOptions với đường dẫn tệp đầu vào và các cài đặt cần thiết khácPdfExtractor.ExtractImages với một thể hiện của ExtractImagesOptions làm tham sốResultContainer.ResultCollectionTextExtractorOptionsTextExtractorOptions.AddInputPdfExtractor.ExtractText với một thể hiện của TextExtractorOptions làm tham sốResultContainer.ResultCollectionExtractFormDataToDsvOptions để cấu hình quá trình xuất dữ liệu ra CSVFormExporter.ExtractFormData, truyền các tùy chọn làm tham sốPDF Extractor for .NET là một công cụ mạnh mẽ được thiết kế để nhanh chóng và dễ dàng trích xuất hình ảnh, văn bản, siêu dữ liệu từ tài liệu PDF, hoặc dữ liệu biểu mẫu trong PDF. Nó tích hợp liền mạch vào ứng dụng .NET của bạn, cung cấp giải pháp thân thiện cho việc truy cập nội dung hình ảnh từ PDF.
Không, plugin này chỉ dành cho việc trích xuất từ PDF. Đối với các tác vụ PDF khác, bạn có thể khám phá các plugin bổ sung có trong thư viện Documentize hoặc tận dụng toàn bộ khả năng của nó cho việc xử lý tài liệu.
Việc trích xuất dữ liệu này hữu ích cho việc phân tích tài liệu, chuẩn bị báo cáo, làm việc với AI.
Hiện tại plugin này xuất hình ảnh ở định dạng PNG. Dữ liệu biểu mẫu được xuất riêng vào định dạng CSV. Nếu bạn cần các định dạng khác như JSON hoặc XML, có thể cần sử dụng công cụ bổ sung hoặc tự tùy chỉnh đầu ra.
Nếu PDF được quét hoặc chứa hình ảnh của văn bản, có thể cần quy trình OCR (Optical Character Recognition) để chuyển văn bản dựa trên hình ảnh thành định dạng có thể chỉnh sửa.