PaddleOCR 3.0 выпущен: обновление с открытым исходным кодом увеличивает точность OCR на 13%

Baidu PaddleOCR 3.0: Значительный шаг вперед в точности OCR

20 мая 2025 года команда Baidu Paddle официально запустила PaddleOCR 3.0, что стало важной вехой в технологии оптического распознавания символов (OCR). Эта версия с открытым исходным кодом демонстрирует замечательное улучшение точности распознавания текста на 13%, а также улучшенную поддержку нескольких языков, распознавание рукописного текста и возможности высокоточного парсинга документов.

С момента своего появления PaddleOCR получила признание как в академических кругах, так и в индустрии благодаря своим передовым алгоритмам и практическим приложениям в различных известных проектах с открытым исходным кодом. Последняя версия, PaddleOCR 3.0, полностью совместима с фреймворком PaddlePaddle 3.0, что обеспечивает разработчикам возможность бесшовного использования ее продвинутых функций.

Ключевые особенности PaddleOCR 3.0

Одной из выдающихся особенностей PaddleOCR 3.0 является модель распознавания текста для всех сценариев, PP-OCRv5. Эта модель поддерживает пять различных типов текста, включая упрощенный китайский, традиционный китайский, пиньинь, английский и японский, а также сложные сценарии текста, такие как рукописный текст, вертикальный текст и редкие символы. Общая точность распознавания PP-OCRv5 достигла уровня, лидирующего в отрасли, значительно увеличивая эффективность и скорость развертывания.

В области парсинга документов PaddleOCR 3.0 представляет универсальное решение для парсинга документов, PP-StructureV3. Это инновационное решение усиливает возможности в обнаружении макета, распознавании таблиц и распознавании формул, а также улучшает понимание графиков и восстанавливает последовательности чтения в многостолбцовых форматах. Оно может выводить результаты как в формате Markdown, так и в формате JSON, демонстрируя свою универсальность в обработке различных типов документов.

Продвинутое понимание документов

Кроме того, PaddleOCR 3.0 включает интеллектуальное решение для понимания документов, PP-ChatOCRv4, которое нативно поддерживает крупную модель Wenxin 4.5 Turbo. Это новое решение достигло 15% увеличения точности извлечения ключевой информации по сравнению с предшественником. Интегрируя сильные стороны как больших, так и малых моделей, PP-ChatOCRv4 позволяет использовать многофункциональную модель понимания документов, PP-DocBee2, в оффлайн-режиме. Этот комплексный инструмент решает сложные задачи извлечения информации из документов, включая анализ макета, распознавание редких символов, многостраничные PDF-файлы, таблицы и распознавание печатей.

Заключение

Выпуск PaddleOCR 3.0 не только подчеркивает приверженность Baidu к постоянным инновациям в технологии OCR, но и предоставляет разработчикам мощные и удобные инструменты для ускорения развертывания AI-приложений. Для тех, кто заинтересован в изучении PaddleOCR 3.0, исходный код доступен на GitHub.

Следите за последними тенденциями в технологии AI, подписавшись на наш раздел новостей AI, где мы предоставляем информацию о развивающемся ландшафте искусственного интеллекта и его приложениях.

Эта статья предоставлена AINavHub Daily. Для получения дополнительной информации посетите AINavHub.

Откройте для себя широкий спектр инновационных решений, адаптированных под ваши нужды. Узнайте больше и исследуйте инструменты AI, созданные для пользователей, в нашем Каталоге инструментов AI, где вы можете изучить такие функции, как умный поиск и AI-ассистенты, чтобы найти идеальный инструмент для вас.