1. Productos
  2.   Extractor de texto

Extractor de texto PDF para .NET

Extraer texto puro, sin formato o plano de documentos PDF con Documentize .NET Plugin.

Extractor de textos para .NET

Presentamos el Extractor de Texto Documentize para el plugin .NET: una herramienta poderosa que simplifica el proceso de extracción de texto de sus documentos PDF. Este plugin es más que un simple extractor de texto: es una solución integral que mejora la eficiencia y versatilidad de su proceso de gestión de documentos. El complemento funciona escaneando sus documentos PDF e identificando el texto incrustado. Luego, extrae este texto mientras preserva su formato y estructura originales. Este proceso tiene como objetivo mejorar la accesibilidad y la usabilidad de su contenido. Una de las características destacadas de este complemento es su capacidad para ofrecer tres modos de operación: puro, crudo y simple. El modo puro extrae el texto mientras conserva su formato original. El modo crudo extrae el texto tal como está, sin ningún formato. El modo simple extrae el texto y elimina cualquier carácter o formato especial. Estos modos brindan flexibilidad y conveniencia para las tareas de extracción de texto en aplicaciones .NET, asegurando que pueda elegir el mejor modo que se adapte a sus necesidades. Sin embargo, los beneficios de este complemento van más allá de la extracción de texto. También ofrece un proceso de extracción suave y eficiente, minimizando el tiempo y el esfuerzo requeridos para extraer texto de su PDF. Con este complemento, puede experimentar la conveniencia de extracciones de texto rápidas y fáciles. En resumen, el plugin Documentize Text Extractor para .NET es una solución integral que optimiza el proceso de extracción de texto de sus documentos PDF, mejora la accesibilidad de su contenido y agiliza su proceso de gestión documental. Pruébelo ahora y experimente la conveniencia y eficiencia de nuestro plugin hoy. ¡Descubra un nuevo nivel de eficiencia!

Cómo extraer texto de un PDF a través de .NET

  • Documentar referencia en tu proyecto
  • Establecer sus claves de licencia.
  • Crear instancias de TextExtractorOptions
  • Añadir documentos PDF de entrada usando TextExtractorOptions.AddDataSource.
  • Llama a TextExtractorOptions.Process y asigna el resultado a ResultContainer.
  • Accede al texto extraído usando ResultContainer.ResultCollection.

Comenzando con Extractor de Texto de PDF

Obtén los archivos de ensamblado de las descargas o busca el paquete en NuGet para añadir Documentize directamente a tu espacio de trabajo.

  • Los sistemas operativos compatibles incluyen Windows 7-11, y Windows Server 2003-2022, macOS (10.12+) y Linux.
  • Los frameworks compatibles van desde la versión 4.0 hasta la 7.0
  • Compatible con varias versiones de Microsoft Visual Studio


Cómo extraer texto de múltiples PDFs.

  • Documentación de referencia para .NET en tu proyecto
  • Establecer sus claves de licencia.
  • Crear instancias de TextExtractor y TextExtractorOptions
  • Añadir documentos PDF de entrada usando TextExtractorOptions.AddDataSource.
  • Llama a TextExtractor.Process con una instancia de TextExtractorOptions como parámetro
  • Obtener el resultado en una instancia de ResultContainer
  • Acceda al texto extraído utilizando ResultContainer.ResultCollection.

Modos de operación del extractor de texto

  • La opción Pure permite la extracción de texto de un archivo PDF con varios procedimientos de formato, incorporando posiciones relativas e introduciendo espacios adicionales para alinear el texto con el ancho de la página.
  • El modo Raw extrae texto del archivo PDF sin aplicar ningún formato.
  • El modo Plain extrae texto del archivo PDF, teniendo en cuenta la posición relativa de los fragmentos de texto, pero a diferencia del modo “Pure”, no agrega espacio extra.

Preguntas frecuentes

Qué hace Documentize Text Extractor para .NET?

Documentize Text Extractor para .NET es un complemento diseñado para aplicaciones .NET, que ofrece extracción de texto de documentos PDF con tres modos de operación: Puro, Crudo y Simple. Se configura por defecto en modo ‘Crudo’, admite opciones de entrada y salida versátiles, permite el procesamiento simultáneo de múltiples archivos PDF y proporciona personalización para desarrolladores, lo que lo convierte en una solución conveniente para la extracción de texto en entornos .NET.

Cuál es la diferencia entre Documentize para .NET y Documentize Text Extractor para .NET?

Documentize para .NET es una robusta API de .NET para una amplia gama de tareas relacionadas con PDF, incluyendo la generación de documentos, compresión, creación de tablas y características avanzadas como la importación y exportación de datos PDF. Por otro lado, Documentize Text Extractor para .NET es un plugin especializado que se centra únicamente en la extracción de texto de documentos PDF, enfatizando las capacidades de extracción de texto.

Es Documentize Text Extractor para .NET limitado solo a extraer texto de PDF?

Sí, el Extractor de Texto PDF para .NET está diseñado específicamente para extraer texto de PDF. Para otras operaciones, puedes usar otros complementos de PDF o las capacidades completas de la biblioteca Documentize.

Ofrece Documentize una herramienta en línea para la extracción de texto de PDF?

Sí, Documentize ofrece una herramienta gratuita de análisis de texto en PDF en línea para necesidades básicas.

Dónde puedo encontrar ejemplos de extracción de texto de Documentize en C#?

Descubre nuestras Páginas de Aterrizaje para Extraer Texto de PDF para .NET

 Español