1. Productos
  2.   PDF Extractor

PDF Extractor en C# .NET

Extraiga imágenes, texto, metadatos y datos de formularios en documentos PDF usando Documentize .NET Plugin

PDF Extractor en C#

Extraiga datos de PDF en C# con PdfExtractor. Los PDFs se usan ampliamente para almacenar documentos porque preservan el formato en diferentes dispositivos. Sin embargo, trabajar con PDFs a menudo requiere extraer contenido específico—como imágenes, texto, metadatos o datos estructurados—para reutilizar, analizar o editar. Al dominar la extracción de PDFs, puede ahorrar tiempo, mejorar los flujos de trabajo y obtener ideas más profundas de los archivos con los que trabaja.

Características clave

Los PDFs con frecuencia contienen logotipos, gráficos, fotos o imágenes escaneadas. Extraer estas imágenes le permite reutilizarlas sin necesidad de copiar páginas completas.

La extracción de texto le permite convertir el contenido legible de un PDF en texto editable. Esto es especialmente útil cuando necesita reutilizar o analizar contenido escrito.

La extracción de propiedades le brinda información sobre el documento PDF. Propiedades disponibles que pueden interesarle: Título, Autor, Asunto, Palabras clave, Número de páginas.

Los formularios PDF se usan ampliamente en aplicaciones, encuestas, facturas y contratos. Permiten a los usuarios ingresar información directamente en campos interactivos. Pero una vez que los formularios están completados, las organizaciones a menudo necesitan extraer esos datos para almacenamiento, informes o análisis.

Primeros pasos

  • Obtenga los archivos de ensamblado de las descargas o obtenga el paquete de NuGet para agregar Documentize directamente a su espacio de trabajo.
  • Referencia Documentize en su proyecto .NET
  • Establezca su licencia License.Set("license.lic"); Opcional

Por qué elegir PDF Extractor

  • Ideal para desarrolladores y empresas que gestionan contenido visual en informes, presentaciones y archivos.
  • Extracción rápida y eficiente para una fácil reutilización del contenido.
  • Múltiples modos de extracción para la máxima flexibilidad.
  • Integración .NET sin problemas para flujos de trabajo simplificados.
  • Sistemas operativos compatibles incluyen Windows 7-11, Windows Server 2003-2022, macOS (10.12+) y Linux.
  • Frameworks compatibles desde la versión 4.0 hasta la 8.0.
  • Compatible con diversas versiones de Microsoft Visual Studio.
  • Documentación detallada y high-quality documentation

Cómo extraer imágenes con PDF Extractor

  • Configure ImageExtractorOptions con la ruta del archivo de entrada y otras configuraciones necesarias
  • Llame a PdfExtractor.ExtractImages con una instancia de ExtractImagesOptions como parámetro
  • Acceda a las imágenes extraídas a través de ResultContainer.ResultCollection

A través de .NET


Cómo extraer texto de PDF

  • Cree instancias de TextExtractorOptions
  • Añada documentos PDF de entrada usando TextExtractorOptions.AddInput
  • Llame a PdfExtractor.ExtractText con una instancia de TextExtractorOptions como parámetro
  • Acceda al texto extraído usando ResultContainer.ResultCollection

A través de .NET


Cómo exportar datos de PDF

  • Cree una instancia de ExtractFormDataToDsvOptions para configurar el proceso de exportación de datos a CSV
  • Añada archivos de entrada y salida a las opciones
  • Llame al método FormExporter.ExtractFormData, pasando las opciones como parámetro

A través de .NET


Cómo extraer propiedades de PDF

A través de .NET


Preguntas frecuentes

¿Qué es PDF Extractor?

PDF Extractor para .NET es una herramienta potente diseñada para extraer imágenes, texto y metadatos de documentos PDF, o datos de formularios en PDF de forma rápida y sencilla. Se integra sin problemas en su aplicación .NET, ofreciendo una solución fácil de usar para acceder al contenido visual de los PDFs.

¿Puedo usar PDF Extractor para .NET para otras operaciones con PDF?

No, este complemento está específicamente diseñado para la extracción de PDFs. Para otras tareas relacionadas con PDFs, puede explorar los complementos adicionales disponibles en la biblioteca Documentize o aprovechar sus capacidades completas para el procesamiento de documentos.

¿Por qué necesitaría extraer texto/imagenes/metadatos/datos de formularios de un PDF?

Extraer estos datos puede ser útil para analizar documentos, preparar informes, trabajar con IA.

¿Qué tipos de formatos de salida admite?

Actualmente este complemento extrae imágenes en formato PNG. Los datos de los formularios se exportan específicamente en formato CSV. Si necesita otros formatos como JSON o XML, puede que necesite usar herramientas adicionales o personalizar la salida usted mismo.

¿Puedo extraer texto de PDFs escaneados?

Si el PDF está escaneado o contiene imágenes de texto, puede ser necesario un proceso de OCR (Reconocimiento Óptico de Caracteres) para convertir el texto basado en imagen a un formato editable.

 Español