1. 产品
  2.   PDF Extractor

C# .NET中的PDF Extractor

使用Documentize .NET插件从PDF文档中提取图像、文本和表单数据

C#中的PDF Extractor

使用PdfExtractor从PDF中提取图像、文本或数据。 PDF被广泛用于存储文档,因为它们能够在不同设备间保持格式。然而,处理PDF通常需要提取特定内容——例如图像、文本或结构化数据——以便重用、分析或编辑。

PDF Extractor的关键特性

PDF通常包含标志、图表、照片或扫描图像。提取这些图像使您能够重用它们,而无需复制整个页面。

文本提取允许您将PDF中可读的内容转换为可编辑的文本。当您需要重新利用或分析书面内容时,这一点特别有用。

PDF表单在应用程序、调查、发票和合同中被广泛使用。它们允许用户直接在交互字段中输入信息。但一旦表单填写完成,组织通常需要提取这些数据以进行存储、报告或分析。

从PDF中提取图像、文本和结构化数据将静态文件转变为可操作的资源。无论您是在重用图形、编辑书面内容还是分析表格,这些功能都能释放您文档的全部潜力。通过掌握PDF提取,您可以节省时间、改善工作流,并从所处理的文件中获得更深入的洞察。

如何使用PDF Extractor提取图像

  • 在您的.NET项目中引用Documentize
  • 设置您的许可证密钥
  • 配置ImageExtractorOptions与输入文件路径及其他必要设置
  • 使用ExtractImagesOptions的实例作为参数调用PdfExtractor.ExtractImages
  • 使用该插件执行图像提取过程
  • 通过ResultContainer.ResultCollection访问提取的图像

入门

  • 从下载中获取程序集文件或从NuGet中获取包,将Documentize直接添加到您的工作空间。
  • 适合在报告、演示文稿和档案中管理视觉内容的开发者和企业。


如何通过.NET提取PDF中的文本

  • 在您的项目中引用Documentize
  • 设置您的许可证密钥
  • 创建TextExtractorOptions的实例
  • 使用TextExtractorOptions.AddInput添加输入PDF文档
  • 使用TextExtractorOptions的实例作为参数调用PdfExtractor.ExtractText
  • 通过ResultContainer.ResultCollection访问提取的文本

为什么选择PDF Extractor?

  • 快速、高效的文本提取,便于内容重用。
  • 多种提取模式提供最大灵活性。
  • 无缝的.NET集成,简化工作流程。
  • 通过使内容易于编辑、共享或归档,提高可访问性。
  • 详细且高质量的文档


如何导出PDF数据

  • 在您的项目中引用Documentize
  • 设置您的许可证密钥
  • 创建ExtractFormDataToDsvOptions的实例,以配置将数据导出到CSV的过程
  • 将输入和输出文件添加到选项
  • 调用FormExporter.ExtractFormData方法,将选项作为参数传递
  • 通过ResultContainer.ResultCollection访问结果

支持的系统

  • 支持的操作系统包括Windows 7-11和Windows Server 2003-2022、macOS(10.12+)和Linux。
  • 支持的框架从4.0到8.0。
  • 与各种Microsoft Visual Studio版本兼容。


常见问题

什么是PDF Extractor?

PDF Extractor for .NET是一个强大的工具,旨在快速轻松地提取PDF文档中的图像、文本或表单数据。它无缝集成到您的.NET应用程序中,为从PDF访问视觉内容提供用户友好的解决方案。

我可以将PDF Extractor for .NET用于其他PDF操作吗?

不,这个插件专门用于从PDF中提取内容。对于其他PDF相关任务,您可以探索Documentize库中其他可用的插件,或利用其文档处理的全部功能。

我为什么需要从PDF中提取文本/图像/表单数据?

提取这些数据对于分析文档、准备报告或处理AI可能非常有用。

它支持什么类型的输出格式?

目前该插件以PNG格式提取图像。表单数据特定导出为CSV格式。如果您需要其他格式,如JSON或XML,您可能需要使用其他工具或自行定制输出。

我可以从扫描的PDF中提取文本吗?

如果PDF是扫描的或包含文本的图像,可能需要进行OCR(光学字符识别)处理,以将基于图像的文本转换为可编辑格式。

 中文