1. Productos
  2.   PDF Text Extractor

PDF Text Extractor en C# .NET

Extrae texto puro, crudo o plano de documentos PDF utilizando el Plugin Documentize .NET

Extraer texto de PDF en C#

Extracción de texto PDF con Documentize PDF Text Extractor para .NET — una solución integral que simplifica la extracción de texto de sus documentos PDF. Esta potente herramienta eleva la accesibilidad y usabilidad de su contenido, ofreciendo capacidades eficientes y versátiles de gestión de documentos.

Opciones Flexibles de Extracción de Texto El PDF Text Extractor escanea sus documentos e identifica texto incrustado, extrayéndolo con precisión mientras mantiene su estructura y formato original. Con tres modos distintos de extracción para elegir, esta herramienta ofrece:

Ya sea que esté trabajando con un solo documento o procesando grandes lotes, Documentize PDF Text Extractor simplifica la tarea de extraer texto de PDF y optimiza su gestión de documentos, todo mientras le ahorra tiempo y esfuerzo valiosos.

Experimente la conveniencia y eficiencia con Documentize PDF Text Extractor para .NET.

Cómo Extraer Texto de PDF a través de .NET

  • Referencie Documentize en su proyecto
  • Configure sus llaves de licencia
  • Cree instancias de TextExtractorOptions
  • Agregue documentos PDF de entrada usando TextExtractorOptions.AddDataSource
  • Llame a TextExtractorOptions.Process y asigne el resultado a ResultContainer
  • Acceda al texto extraído utilizando ResultContainer.ResultCollection

¿Por qué Elegir Documentize PDF Text Extractor?

  • Extracción de texto rápida y eficiente para reutilización de contenido fácil.
  • Múltiples modos de extracción para máxima flexibilidad.
  • Integración perfecta con .NET para flujos de trabajo simplificados.
  • Mejorada accesibilidad al hacer que el contenido sea fácil de editar, compartir o archivar.
  • Documentación detallada y de alta calidad


Cómo Extraer Texto de Múltiples PDFs

  • Referencie Documentize para .NET en su proyecto
  • Configure sus llaves de licencia
  • Cree instancias de TextExtractor & TextExtractorOptions
  • Agregue documentos PDF de entrada usando TextExtractorOptions.AddDataSource
  • Llame a TextExtractor.Process con una instancia de TextExtractorOptions como parámetro
  • Obtenga el resultado en una instancia de ResultContainer
  • Acceda al texto extraído utilizando ResultContainer.ResultCollection

Modos de Operación del Extractor de Texto

  • La opción Puro permite la extracción de texto de un archivo PDF con varios procedimientos de formato, incorporando posiciones relativas e introduciendo espacios adicionales para alinear el texto al ancho de la página
  • El modo Crudo extrae texto del archivo PDF sin aplicar ningún formato
  • El modo Plano extrae texto del archivo PDF, teniendo en cuenta la posición relativa de los fragmentos de texto, pero a diferencia del modo “Puro”, no añade espacio adicional.

Preguntas frecuentes

¿Qué hace Documentize Text Extractor para .NET?

Documentize Text Extractor para .NET es un plugin diseñado para aplicaciones .NET, que ofrece extracción de texto de documentos PDF con tres modos de operación: Puro, Crudo y Plano. Por defecto utiliza el modo ‘Crudo’, soporta opciones versátiles de entrada y salida, permite el procesamiento simultáneo de múltiples archivos PDF y proporciona personalización para desarrolladores, siendo una solución conveniente para la extracción de texto dentro de entornos .NET.

¿Cuál es la diferencia entre Documentize para .NET y Documentize Text Extractor para .NET?

Documentize para .NET es una API robusta para .NET para una amplia gama de tareas con PDF, incluyendo generación de documentos, compresión, creación de tablas y características avanzadas como la importación y exportación de datos PDF. Por otro lado, Documentize Text Extractor para .NET es un plugin especializado enfocado únicamente en extraer texto de documentos PDF, enfatizando las capacidades de extracción de texto.

¿Está limitado Documentize Text Extractor para .NET solo a extraer texto de PDF?

Sí, PDF Text Extractor para .NET está diseñado específicamente para extraer texto de PDF. Para otras operaciones puede usar otros plugins de PDF o las capacidades completas de la biblioteca Documentize.

¿Por qué necesitaría extraer texto de un PDF?

Extraer texto es útil para convertir PDFs en formatos editables, buscar información específica, analizar datos y reutilizar contenido para informes o presentaciones.

¿Puedo extraer texto de PDFs escaneados?

Si el PDF está escaneado o contiene imágenes de texto, puede ser necesario un proceso de OCR (Reconocimiento Óptico de Caracteres) para convertir el texto basado en imágenes en un formato editable.

¿Es posible extraer texto de páginas específicas en lugar de todo el documento?

Sí, la herramienta permite a los usuarios extraer texto de páginas seleccionadas o rangos de páginas según sea necesario.

 Español