Extract Data from PDF in C# with PdfExtractor. PDF 被广泛用于存储文档,因为它们能够在不同设备之间保持格式一致。然而,处理 PDF 往往需要提取特定内容——如图像、文本、元数据或结构化数据——以便重新使用、分析或编辑。掌握 PDF 提取技术,可帮助你节省时间、提升工作流,并从文件中获取更深入的洞见。
Key Features
PDF 中常包含徽标、图表、照片或扫描图像。提取这些图像可让你在不复制整页的情况下重复使用它们。
文本提取可将 PDF 中可读的内容转换为可编辑的文本。当需要重新利用或分析书面内容时,这尤其有用。
属性提取让你获取 PDF 文档的信息。可能感兴趣的属性包括:标题、作者、主题、关键字、页数等。
PDF 表单在应用、调查、发票和合同中被广泛使用。它们允许用户直接在交互式字段中输入信息。但表单填写完成后,组织通常需要将这些数据提取出来用于存储、报告或分析。
License.Set("license.lic"); 可选ImageExtractorOptions 配置输入文件路径等必要设置PdfExtractor.ExtractImages,并传入 ExtractImagesOptions 实例作为参数ResultContainer.ResultCollection 访问提取的图像TextExtractorOptions 实例TextExtractorOptions.AddInput 添加输入 PDF 文档PdfExtractor.ExtractText,并传入 TextExtractorOptions 实例作为参数ResultContainer.ResultCollection 访问提取的文本ExtractFormDataToDsvOptions 实例,以配置将数据导出为 CSV 的过程FormExporter.ExtractFormData 方法,将选项作为参数传入PDF Extractor for .NET 是一款强大的工具,专门用于快速轻松地从 PDF 文档中提取图像、文本、元数据或表单数据。它可无缝集成到你的 .NET 应用程序中,为访问 PDF 中的视觉内容提供友好的解决方案。
不可以,此插件专用于从 PDF 中提取内容。对于其他 PDF 相关任务,你可以在 Documentize 库中探索其他插件,或利用其完整的文档处理功能。
提取这些数据可用于分析文档、准备报告、以及与 AI 结合使用等场景。
目前该插件以 PNG 格式导出图像,表单数据则导出为 CSV 格式。如果需要 JSON、XML 等其他格式,可能需要使用额外工具或自行定制输出。
如果 PDF 是扫描件或包含文本图像,则可能需要 OCR(光学字符识别)过程,将基于图像的文本转换为可编辑格式。