1. 产品
  2.   PDF 文本提取器

C# .NET 中的 PDF 文本提取器

使用Documentize .NET插件从PDF文档中提取纯文本、原始文本或简单文本

在C#中从PDF提取文本

使用Documentize PDF文本提取器进行PDF文本提取,适用于.NET——这是一个简化从PDF文档中提取文本的综合解决方案。这个强大的工具提升了内容的可访问性和可用性,提供高效且多样化的文档管理能力。

灵活的文本提取选项 PDF文本提取器扫描您的文档并识别嵌入文本,精确提取并保持其原始结构和格式。 此工具提供三种不同的提取模式可供选择:

无论您是在处理单个文档还是大量批处理,Documentize PDF文本提取器简化了PDF文本提取任务,并优化了您的文档管理,同时为您节省宝贵的时间和精力。

体验Documentize PDF文本提取器在.NET中的便捷性和高效性。

如何通过.NET从PDF中提取文本

  • 在项目中引用Documentize
  • 设置您的许可证密钥
  • 创建TextExtractorOptions的实例
  • 使用TextExtractorOptions.AddDataSource添加输入PDF文档
  • 调用TextExtractorOptions.Process并将结果分配给ResultContainer
  • 使用ResultContainer.ResultCollection访问提取的文本

为什么选择Documentize PDF文本提取器?

  • 快速、高效的文本提取,便于内容重用。
  • 多种提取模式以实现最大灵活性。
  • 无缝.NET集成,简化工作流程。
  • 通过使内容易于编辑、共享或存档来提高可访问性。
  • 详细且高质量的文档


如何从多个PDF中提取文本

  • 在项目中引用Documentize for .NET
  • 设置您的许可证密钥
  • 创建TextExtractorTextExtractorOptions的实例
  • 使用TextExtractorOptions.AddDataSource添加输入PDF文档
  • 使用TextExtractorOptions实例作为参数调用TextExtractor.Process
  • 将结果获取到ResultContainer实例中
  • 使用ResultContainer.ResultCollection访问提取的文本

文本提取器的操作模式

  • 纯模式选项允许从PDF文件中提取文本,采用各种格式化程序,结合相对位置并引入额外空格以对齐文本至页面宽度
  • 原始模式从PDF文件中提取文本而不应用任何格式
  • 简单模式从PDF文件中提取文本,考虑到文本片段的相对位置,但与“纯模式”不同,它不添加额外空格。

常见问题

Documentize Text Extractor for .NET 是做什么的?

Documentize Text Extractor for .NET 是一个为.NET应用程序设计的插件,提供从PDF文档中提取文本的功能,支持三种操作模式:纯模式、原始模式和简单模式。默认使用“原始”模式,支持多种输入和输出选项,允许同时处理多个PDF文件,并为开发者提供自定义功能,使其成为.NET环境中便捷的文本提取解决方案。

Documentize for .NET 和 Documentize Text Extractor for .NET 之间有什么区别?

Documentize for .NET 是一个用于广泛PDF任务的强大.NET API,包括文档生成、压缩、表格创建和导入导出PDF数据等高级功能。而Documentize Text Extractor for .NET是一个专门的插件,专注于从PDF文档中提取文本,强调文本提取能力。

Documentize Text Extractor for .NET 是否仅限于从PDF中提取文本?

是的,PDF Text Extractor for .NET 专为从PDF中提取文本而设计。对于其他操作,您可以使用其他PDF插件或Documentize库的全部功能。

为什么需要从PDF中提取文本?

提取文本有助于将PDF转换为可编辑格式,搜索特定信息,分析数据,并为报告或演示文稿重新利用内容。

我可以从扫描的PDF中提取文本吗?

如果PDF是扫描件或包含文本图像,可能需要OCR(光学字符识别)过程将基于图像的文本转换为可编辑格式。

是否可以只从特定页面而非整个文档中提取文本?

是的,该工具允许用户根据需要从选定页面或页面范围内提取文本。

 中文