1. Sản phẩm
  2.   PDF Extractor

PDF Extractor in C# .NET

Trích xuất hình ảnh, văn bản, siêu dữ liệu và dữ liệu từ biểu mẫu trong tài liệu PDF bằng Documentize .NET Plugin

PDF Extractor in C#

Trích xuất dữ liệu từ PDF trong C# với PdfExtractor. PDF được sử dụng rộng rãi để lưu trữ tài liệu vì chúng duy trì định dạng trên các thiết bị khác nhau. Tuy nhiên, làm việc với PDF thường đòi hỏi phải trích xuất nội dung cụ thể—như hình ảnh, văn bản, siêu dữ liệu hoặc dữ liệu có cấu trúc—để tái sử dụng, phân tích hoặc chỉnh sửa. Bằng cách thành thạo việc trích xuất PDF, bạn có thể tiết kiệm thời gian, cải thiện quy trình công việc và nắm bắt sâu hơn các thông tin từ các tệp mà bạn làm việc.

Tính năng chính

PDF thường chứa logo, biểu đồ, ảnh chụp hoặc hình ảnh quét. Việc trích xuất những hình ảnh này cho phép bạn tái sử dụng chúng mà không cần sao chép toàn bộ trang.

Trích xuất văn bản cho phép bạn chuyển nội dung có thể đọc được của PDF thành văn bản có thể chỉnh sửa. Điều này đặc biệt hữu ích khi bạn cần tái sử dụng hoặc phân tích nội dung viết.

Trích xuất thuộc tính cung cấp thông tin về tài liệu PDF. Các thuộc tính thường quan tâm bao gồm: Tiêu đề, Tác giả, Chủ đề, Từ khóa, Số trang.

Biểu mẫu PDF được sử dụng rộng rãi trong các ứng dụng, khảo sát, hoá đơn và hợp đồng. Chúng cho phép người dùng nhập thông tin trực tiếp vào các trường tương tác. Khi biểu mẫu đã được điền, các tổ chức thường cần trích xuất dữ liệu đó để lưu trữ, báo cáo hoặc phân tích.

Getting Started

  • Tải các tệp assembly từ phần tải xuống hoặc lấy gói từ NuGet để thêm Documentize trực tiếp vào không gian làm việc của bạn.
  • Tham chiếu Documentize trong dự án .NET của bạn
  • Đặt giấy phép của bạn License.Set("license.lic"); Tùy chọn

Why Choose PDF Extractor

  • Phù hợp cho nhà phát triển và doanh nghiệp quản lý nội dung hình ảnh trong báo cáo, bản thuyết trình và lưu trữ.
  • Trích xuất nhanh, hiệu quả để tái sử dụng nội dung dễ dàng.
  • Nhiều chế độ trích xuất cho độ linh hoạt tối đa.
  • Tích hợp .NET mượt mà giúp đơn giản hoá quy trình làm việc.
  • Hệ điều hành được hỗ trợ bao gồm Windows 7-11, Windows Server 2003-2022, macOS (10.12+), và Linux.
  • Các framework được hỗ trợ từ 4.0 đến 8.0.
  • Tương thích với nhiều phiên bản Microsoft Visual Studio.
  • Tài liệu chi tiết và high-quality documentation

How to Extract Images with PDF Extractor

  • Cấu hình ImageExtractorOptions với đường dẫn tệp đầu vào và các cài đặt cần thiết khác
  • Gọi PdfExtractor.ExtractImages với một thể hiện của ExtractImagesOptions làm tham số
  • Truy cập các hình ảnh đã trích xuất thông qua ResultContainer.ResultCollection

Via .NET


How to Extract Text from PDF

  • Tạo các thể hiện của TextExtractorOptions
  • Thêm các tài liệu PDF đầu vào bằng TextExtractorOptions.AddInput
  • Gọi PdfExtractor.ExtractText với một thể hiện của TextExtractorOptions làm tham số
  • Truy cập văn bản đã trích xuất bằng ResultContainer.ResultCollection

Via .NET


How to export PDF data

  • Tạo một thể hiện của ExtractFormDataToDsvOptions để cấu hình quá trình xuất dữ liệu ra CSV
  • Thêm các tệp đầu vào và đầu ra vào tùy chọn
  • Gọi phương thức FormExporter.ExtractFormData, truyền các tùy chọn làm tham số

Via .NET


How to Extract Properties from PDF

Via .NET


Câu Hỏi Thường Gặp

What is PDF Extractor?

PDF Extractor for .NET là một công cụ mạnh mẽ được thiết kế để nhanh chóng và dễ dàng trích xuất hình ảnh, văn bản, siêu dữ liệu từ tài liệu PDF, hoặc dữ liệu biểu mẫu trong PDF. Nó tích hợp liền mạch vào ứng dụng .NET của bạn, cung cấp giải pháp thân thiện cho việc truy cập nội dung hình ảnh từ PDF.

Can I use PDF Extractor for .NET for other PDF operations?

Không, plugin này chỉ dành cho việc trích xuất từ PDF. Đối với các tác vụ PDF khác, bạn có thể khám phá các plugin bổ sung có trong thư viện Documentize hoặc tận dụng toàn bộ khả năng của nó cho việc xử lý tài liệu.

Why would I need to extract text/images/metadata/form data from a PDF?

Việc trích xuất dữ liệu này hữu ích cho việc phân tích tài liệu, chuẩn bị báo cáo, làm việc với AI.

What types of output formats does it support?

Hiện tại plugin này xuất hình ảnh ở định dạng PNG. Dữ liệu biểu mẫu được xuất riêng vào định dạng CSV. Nếu bạn cần các định dạng khác như JSON hoặc XML, có thể cần sử dụng công cụ bổ sung hoặc tự tùy chỉnh đầu ra.

Can I extract text from scanned PDFs?

Nếu PDF được quét hoặc chứa hình ảnh của văn bản, có thể cần quy trình OCR (Optical Character Recognition) để chuyển văn bản dựa trên hình ảnh thành định dạng có thể chỉnh sửa.

 Tiếng Việt