1. Productos
  2.   PDF Extractor

PDF Extractor en C#/.NET

Extraiga imágenes, texto, metadatos y datos de formularios de documentos PDF

PDF Extractor

Extraiga datos de PDF en C# con PDF Extractor. Los PDFs se utilizan ampliamente para almacenar documentos porque conservan el formato en diferentes dispositivos. Sin embargo, trabajar con PDFs a menudo requiere extraer contenido específico —como imágenes, texto, metadatos o datos estructurados— para reutilizarlo, analizarlo o editarlo. Al dominar la extracción de PDF, puede ahorrar tiempo, mejorar los flujos de trabajo y obtener insights más profundos de los archivos con los que trabaja.

Características clave

Los PDFs con frecuencia contienen logotipos, gráficos, fotos o imágenes escaneadas. Extraer estas imágenes le permite reutilizarlas sin necesidad de copiar páginas completas. Extracción de imágenes en alta resolución – Recupere las imágenes tal como aparecen en su PDF para uso profesional.

La extracción de texto le permite convertir el contenido legible de un PDF en texto editable. Esto es especialmente útil cuando necesita reutilizar o analizar el contenido escrito. Elija entre tres modos de precisión para adaptarse a sus necesidades:

Modo puro — Conserva el formato original para una salida estructurada

Modo bruto — Extrae texto plano sin formato

Modo aplanado — Elimina caracteres especiales y formato para obtener texto limpio y minimalista

La extracción de propiedades le brinda información sobre el documento PDF. Propiedades disponibles que pueden interesarle: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Los formularios PDF se usan ampliamente en aplicaciones, encuestas, facturas y contratos. Permiten a los usuarios ingresar información directamente en campos interactivos. Pero una vez que los formularios se completan, las organizaciones a menudo necesitan extraer esos datos para almacenarlos, reportarlos o analizarlos.

Comenzando

  • Descargue los archivos de ensamblado desde Here o NuGet.
  • Referencie Documentize en su proyecto .NET.
  • Añada using Documentize;.
  • Establezca su licencia License.Set("license.lic"); - Opcional.

Por qué elegir PDF Extractor

  • Ideal para desarrolladores y empresas que gestionan contenido visual en informes, presentaciones y archivos.
  • Extracción rápida y eficiente para una fácil reutilización del contenido.
  • Múltiples modos de extracción para máxima flexibilidad.
  • Integración perfecta con .NET para simplificar los flujos de trabajo.
  • Sistemas operativos compatibles incluyen Windows 7-11 y Windows Server 2003-2022, macOS (10.12+), y Linux.
  • Frameworks compatibles desde 4.0 hasta 8.0.
  • Compatible con diversas versiones de Microsoft Visual Studio.
  • Documentación detallada y de alta calidad

Cómo extraer imágenes con PDF Extractor

  • Configure ImageExtractorOptions con la ruta del archivo de entrada y otras configuraciones necesarias
  • Llame a PdfExtractor.Extract con una instancia de ExtractImagesOptions como parámetro
  • Acceda a las imágenes extraídas a través del ResultContainer.ResultCollection


Cómo extraer texto de PDF

  • Cree instancias de ExtractTextOptions y establezca el PDF de entrada
  • Llame a PdfExtractor.Extract con una instancia de ExtractTextOptions como parámetro y acceda al texto extraído


Cómo exportar datos de campos PDF

  • Cree una instancia de ExtractFormDataToDsvOptions para configurar el proceso de exportación de datos a CSV
  • Añada los archivos de entrada y salida a las opciones
  • Llame al método PdfExtractor.Extract, pasando las opciones como parámetro


Cómo extraer propiedades de PDF


Preguntas frecuentes

¿Qué es PDF Extractor?

PDF Extractor para .NET es una herramienta potente diseñada para extraer imágenes, texto, metadatos de documentos PDF, o datos de formularios en PDF de forma rápida y sencilla. Se integra sin problemas en su aplicación .NET, ofreciendo una solución fácil de usar para acceder al contenido visual de los PDFs.

¿Puedo usar PDF Extractor para .NET en otras operaciones con PDFs?

No, este plugin está específicamente destinado a la extracción de PDFs. Para otras tareas relacionadas con PDFs, puede explorar los plugins adicionales disponibles en la biblioteca Documentize o aprovechar sus capacidades completas para el procesamiento de documentos.

¿Por qué necesitaría extraer texto/imágenes/metadatos/datos de formularios de un PDF?

Extraer estos datos puede ser útil para analizar documentos, preparar informes, trabajar con IA.

¿Qué tipos de formatos de salida admite?

Actualmente este plugin extrae imágenes en formato PNG. Los datos de formularios se exportan específicamente a formato CSV. Si necesita otros formatos como JSON o XML, deberá usar herramientas adicionales o personalizar la salida usted mismo.

¿Puedo extraer texto de PDFs escaneados?

Si el PDF está escaneado o contiene imágenes de texto, puede requerirse un proceso de OCR (Reconocimiento Óptico de Caracteres) para convertir el texto basado en imágenes a un formato editable.

 Español