PaddleOCR 3.0 Lanzado: Actualización de Código Abierto Aumenta la Precisión de OCR en un 13%

Baidu PaddleOCR 3.0: Un Gran Salto en la Precisión de OCR

El 20 de mayo de 2025, el equipo de Baidu Paddle lanzó oficialmente PaddleOCR 3.0, marcando un hito importante en la tecnología de reconocimiento óptico de caracteres (OCR). Esta versión de código abierto presenta una notable mejora del 13% en la precisión del reconocimiento de texto, junto con un mejor soporte multilingüe, reconocimiento de escritura a mano y capacidades de análisis de documentos de alta precisión.

Desde su creación, PaddleOCR ha recibido elogios tanto de la academia como de la industria, gracias a sus algoritmos de vanguardia y aplicaciones prácticas en varios proyectos de código abierto bien conocidos. La última iteración, PaddleOCR 3.0, es completamente compatible con el marco PaddlePaddle 3.0, asegurando que los desarrolladores puedan aprovechar sus características avanzadas sin problemas.

Características Clave de PaddleOCR 3.0

Una de las características destacadas de PaddleOCR 3.0 es el modelo de reconocimiento de texto para todos los escenarios, PP-OCRv5. Este modelo admite cinco tipos diferentes de texto, incluidos chino simplificado, chino tradicional, pinyin, inglés y japonés, así como escenarios de texto complejos como escritura a mano, texto vertical y caracteres raros. La precisión general de reconocimiento de PP-OCRv5 ha alcanzado niveles líderes en la industria, mejorando significativamente la eficiencia y velocidad de implementación.

En términos de análisis de documentos, PaddleOCR 3.0 introduce la solución universal de análisis de documentos, PP-StructureV3. Esta solución innovadora fortalece las capacidades en detección de diseño, reconocimiento de tablas y reconocimiento de fórmulas, al mismo tiempo que mejora la comprensión de gráficos y restaura las secuencias de lectura en múltiples columnas. Puede generar resultados en formatos Markdown y JSON, mostrando su versatilidad para manejar varios tipos de documentos.

Comprensión Avanzada de Documentos

Además, PaddleOCR 3.0 presenta la solución de comprensión de documentos inteligente, PP-ChatOCRv4, que admite de forma nativa el modelo grande Wenxin 4.5 Turbo. Esta nueva solución ha logrado un aumento del 15% en la precisión de extracción de información clave en comparación con su predecesor. Al integrar las fortalezas de modelos grandes y pequeños, PP-ChatOCRv4 permite el uso fuera de línea del modelo de comprensión de documentos multimodal, PP-DocBee2. Esta herramienta integral aborda los desafíos complejos de extracción de información de documentos, incluyendo análisis de diseño, reconocimiento de caracteres raros, PDFs de múltiples páginas, tablas y reconocimiento de sellos.

Conclusión

El lanzamiento de PaddleOCR 3.0 no solo subraya el compromiso de Baidu con la innovación continua en la tecnología OCR, sino que también proporciona a los desarrolladores herramientas poderosas y fáciles de usar para acelerar la implementación de aplicaciones de IA. Para aquellos interesados en explorar PaddleOCR 3.0, el código de código abierto está disponible en GitHub.

Mantente actualizado con las últimas tendencias en tecnología de IA siguiendo nuestra sección diaria de noticias de IA, donde proporcionamos información sobre el paisaje en evolución de la inteligencia artificial y sus aplicaciones.

Este artículo es presentado por AINavHub Daily. Para más información, visita AINavHub.

Descubre una amplia gama de soluciones innovadoras adaptadas a tus necesidades. Aprende más y explora herramientas de IA diseñadas para usuarios en nuestro Directorio de Herramientas de IA, donde puedes explorar características como búsqueda inteligente y asistentes de IA para encontrar la herramienta perfecta para ti.