1. 产品
  2.   PDF Extractor

PDF Extractor in C# .NET

使用 Documentize .NET 插件从 PDF 文档中提取图像、文本、元数据和表单数据

PDF Extractor in C#

Extract Data from PDF in C# with PdfExtractor. PDF 被广泛用于存储文档,因为它们能够在不同设备之间保持格式一致。然而,处理 PDF 往往需要提取特定内容——如图像、文本、元数据或结构化数据——以便重新使用、分析或编辑。掌握 PDF 提取技术,可帮助你节省时间、提升工作流,并从文件中获取更深入的洞见。

Key Features

PDF 中常包含徽标、图表、照片或扫描图像。提取这些图像可让你在不复制整页的情况下重复使用它们。

文本提取可将 PDF 中可读的内容转换为可编辑的文本。当需要重新利用或分析书面内容时,这尤其有用。

属性提取让你获取 PDF 文档的信息。可能感兴趣的属性包括:标题、作者、主题、关键字、页数等。

PDF 表单在应用、调查、发票和合同中被广泛使用。它们允许用户直接在交互式字段中输入信息。但表单填写完成后,组织通常需要将这些数据提取出来用于存储、报告或分析。

Getting Started

  • 从下载获取程序集文件,或从 NuGet 获取包,以直接将 Documentize 添加到你的工作区。
  • 在 .NET 项目中引用 Documentize
  • 设置许可证 License.Set("license.lic"); 可选

Why Choose PDF Extractor

  • 适用于在报告、演示文稿和档案中管理视觉内容的开发者和企业。
  • 快速、高效的提取,实现内容的轻松重复使用。
  • 多种提取模式,提供最大灵活性。
  • 与 .NET 无缝集成,简化工作流。
  • 支持的操作系统包括 Windows 7-11、Windows Server 2003-2022、macOS (10.12+) 和 Linux。
  • 支持的框架从 4.0 到 8.0。
  • 兼容各种 Microsoft Visual Studio 版本。
  • 详细且 high-quality documentation

How to Extract Images with PDF Extractor

  • 使用 ImageExtractorOptions 配置输入文件路径等必要设置
  • 调用 PdfExtractor.ExtractImages,并传入 ExtractImagesOptions 实例作为参数
  • 通过 ResultContainer.ResultCollection 访问提取的图像

Via .NET


How to Extract Text from PDF

  • 创建 TextExtractorOptions 实例
  • 使用 TextExtractorOptions.AddInput 添加输入 PDF 文档
  • 调用 PdfExtractor.ExtractText,并传入 TextExtractorOptions 实例作为参数
  • 通过 ResultContainer.ResultCollection 访问提取的文本

Via .NET


How to export PDF data

  • 创建 ExtractFormDataToDsvOptions 实例,以配置将数据导出为 CSV 的过程
  • 向选项中添加输入文件和输出文件
  • 调用 FormExporter.ExtractFormData 方法,将选项作为参数传入

Via .NET


How to Extract Properties from PDF

Via .NET


常见问题

What is PDF Extractor?

PDF Extractor for .NET 是一款强大的工具,专门用于快速轻松地从 PDF 文档中提取图像、文本、元数据或表单数据。它可无缝集成到你的 .NET 应用程序中,为访问 PDF 中的视觉内容提供友好的解决方案。

Can I use PDF Extractor for .NET for other PDF operations?

不可以,此插件专用于从 PDF 中提取内容。对于其他 PDF 相关任务,你可以在 Documentize 库中探索其他插件,或利用其完整的文档处理功能。

Why would I need to extract text/images/metadata/form data from a PDF?

提取这些数据可用于分析文档、准备报告、以及与 AI 结合使用等场景。

What types of output formats does it support?

目前该插件以 PNG 格式导出图像,表单数据则导出为 CSV 格式。如果需要 JSON、XML 等其他格式,可能需要使用额外工具或自行定制输出。

Can I extract text from scanned PDFs?

如果 PDF 是扫描件或包含文本图像,则可能需要 OCR(光学字符识别)过程,将基于图像的文本转换为可编辑格式。

 中文