1. Sản phẩm
  2.   Trình trích xuất văn bản

Trình rút trích văn bản PDF cho .NET

Trích xuất văn bản thuần, thô hoặc đơn giản từ tài liệu PDF với Documentize .NET Plugin

Trình rút trích văn bản cho .NET

Giới thiệu về plugin Documentize Text Extractor cho .NET - một công cụ mạnh mẽ giúp đơn giản hóa quy trình trích xuất văn bản từ các tài liệu PDF của bạn. Plugin này không chỉ là một trình trích xuất văn bản - nó là một giải pháp toàn diện nâng cao hiệu quả và khả năng linh hoạt trong quy trình quản lý tài liệu của bạn. Plugin này hoạt động bằng cách quét các tài liệu PDF của bạn và xác định văn bản được nhúng. Sau đó, nó trích xuất văn bản này trong khi vẫn bảo toàn định dạng và cấu trúc ban đầu của nó. Quá trình này hoàn toàn nhằm nâng cao tính truy cập và khả năng sử dụng của nội dung của bạn. Một trong những tính năng nổi bật của plugin này là khả năng cung cấp ba chế độ hoạt động: chế độ nguyên bản, chế độ thô và chế độ đơn giản. Chế độ nguyên bản trích xuất văn bản trong khi giữ nguyên định dạng gốc. Chế độ thô trích xuất văn bản như nó là, không có bất kỳ định dạng nào. Chế độ đơn giản trích xuất văn bản và loại bỏ bất kỳ ký tự hoặc định dạng đặc biệt nào. Các chế độ này cung cấp sự linh hoạt và tiện lợi cho các tác vụ trích xuất văn bản trong các ứng dụng .NET, đảm bảo bạn có thể chọn chế độ tốt nhất phù hợp với nhu cầu của mình. Tuy nhiên, lợi ích của plugin này vượt xa việc trích xuất văn bản. Nó cũng cung cấp một quy trình trích xuất mượt mà và hiệu quả, giảm thiểu thời gian và công sức cần thiết để trích xuất văn bản từ PDF của bạn. Với plugin này, bạn có thể trải nghiệm sự tiện lợi của việc trích xuất văn bản nhanh chóng và dễ dàng. Tóm lại, plugin Documentize Text Extractor cho .NET là một giải pháp toàn diện giúp đơn giản hóa quá trình trích xuất văn bản từ tài liệu PDF của bạn, nâng cao khả năng truy cập nội dung và tối ưu hóa quy trình quản lý tài liệu của bạn. Hãy thử ngay bây giờ và trải nghiệm sự tiện lợi và hiệu quả của plugin của chúng tôi hôm nay. Khám phá một cấp độ hiệu quả mới!

Cách trích xuất văn bản từ PDF qua .NET

  • Tài liệu tham khảo trong dự án của bạn
  • Đặt chìa khóa cấp phép của bạn
  • Tạo các trường hợp của TextExtractorOptions
  • Thêm tài liệu PDF đầu vào bằng cách sử dụng TextExtractorOptions.AddDataSource
  • Gọi TextExtractorOptions.Process và gán kết quả cho ResultContainer.
  • Truy cập vào văn bản đã trích xuất bằng cách sử dụng ResultContainer.ResultCollection

Bắt đầu với Trích xuất Văn bản PDF

Lấy các tệp lắp ghép từ thư mục tải về hoặc lấy gói từ NuGet để thêm Documentize trực tiếp vào không gian làm việc của bạn.

  • Hệ điều hành được hỗ trợ bao gồm Windows 7-11, và Windows Server 2003-2022, macOS (10.12+), và Linux
  • Các khung công cụ hỗ trợ từ phiên bản 4.0 đến 7.0
  • Tương thích với các phiên bản Microsoft Visual Studio khác nhau


Làm thế nào để Trích xuất Văn bản từ Nhiều Tệp PDF

  • Tài liệu tham khảo cho .NET trong dự án của bạn
  • Đặt chìa khóa cấp phép của bạn
  • Tạo các phiên bản của TextExtractorTextExtractorOptions
  • Thêm tài liệu PDF đầu vào bằng cách sử dụng TextExtractorOptions.AddDataSource
  • Gọi TextExtractor.Process với một phiên bản của TextExtractorOptions như là tham số
  • Nhận kết quả vào một thể hiện của ResultContainer.
  • Truy cập văn bản trích xuất bằng ResultContainer.ResultCollection

Chế độ hoạt động của Trình trích xuất văn bản

  • Tùy chọn Pure cho phép trích xuất văn bản từ tệp PDF với các thủ tục định dạng khác nhau, tích hợp vị trí tương đối và tạo ra khoảng trống bổ sung để căn chỉnh văn bản theo chiều rộng của trang.
  • Chế độ Raw trích xuất văn bản từ tập tin PDF mà không áp dụng bất kỳ định dạng nào
  • Chế độ Plain trích xuất văn bản từ tệp PDF, xem xét vị trí tương đối của các đoạn văn bản, nhưng không giống như chế độ “Pure”, nó không thêm khoảng trống bổ sung.

Câu Hỏi Thường Gặp

Documentize Text Extractor cho .NET làm gì?

Documentize Text Extractor cho .NET là một plugin được thiết kế cho các ứng dụng .NET, cung cấp khả năng trích xuất văn bản từ tài liệu PDF với ba chế độ hoạt động: Pure, Raw và Plain. Nó mặc định ở chế độ ‘Raw’, hỗ trợ các tùy chọn đầu vào và đầu ra đa dạng, cho phép xử lý đồng thời nhiều tệp PDF, và cung cấp khả năng tùy chỉnh cho các nhà phát triển, làm cho nó trở thành một giải pháp tiện lợi cho việc trích xuất văn bản trong các môi trường .NET.

Sự khác biệt giữa Documentize for .NET và Documentize Text Extractor for .NET là gì?

Documentize cho .NET là một API .NET mạnh mẽ cho nhiều tác vụ PDF, bao gồm tạo tài liệu, nén, tạo bảng và các tính năng nâng cao như nhập khẩu và xuất khẩu dữ liệu PDF. Mặt khác, Documentize Text Extractor cho .NET là một plugin chuyên biệt chỉ tập trung vào việc trích xuất văn bản từ các tài liệu PDF, nhấn mạnh các khả năng trích xuất văn bản.

Documentize Text Extractor cho .NET có chỉ giới hạn trong việc chỉ trích xuất văn bản từ PDF không?

Có, PDF Text Extractor cho .NET được thiết kế cụ thể để trích xuất văn bản từ PDF. Đối với các thao tác khác, bạn có thể sử dụng các plugin PDF khác hoặc toàn bộ khả năng của thư viện Documentize.

Documentize có cung cấp công cụ trực tuyến để trích xuất văn bản từ PDF không?

Có, Documentize cung cấp một công cụ phân tích văn bản PDF trực tuyến miễn phí cho nhu cầu cơ bản.

Tôi có thể tìm thấy ví dụ về Trích xuất Văn bản Documentize trong C# ở đâu?

Khám phá các Trang Đích của Trích xuất văn bản từ PDF cho .NET

 Tiếng Việt