PaddleOCR 3.0 publié : La mise à jour open source augmente la précision de l'OCR de 13 %

Baidu PaddleOCR 3.0 : Un Saut Significatif dans la Précision de l'OCR

Le 20 mai 2025, l'équipe de Baidu Paddle a officiellement lancé PaddleOCR 3.0, marquant une étape majeure dans la technologie de reconnaissance optique de caractères (OCR). Cette version open-source affiche une amélioration remarquable de 13 % de la précision de reconnaissance de texte, ainsi qu'un support multilingue amélioré, une reconnaissance de l'écriture manuscrite et des capacités de parsing de documents de haute précision.

Depuis ses débuts, PaddleOCR a reçu des éloges tant du milieu académique que de l'industrie, grâce à ses algorithmes de pointe et à ses applications pratiques dans divers projets open-source bien connus. La dernière itération, PaddleOCR 3.0, est entièrement compatible avec le framework PaddlePaddle 3.0, garantissant que les développeurs peuvent tirer parti de ses fonctionnalités avancées sans effort.

Caractéristiques Clés de PaddleOCR 3.0

L'une des caractéristiques remarquables de PaddleOCR 3.0 est le modèle de reconnaissance de texte tout scénario, PP-OCRv5. Ce modèle prend en charge cinq types de texte différents, y compris le chinois simplifié, le chinois traditionnel, le pinyin, l'anglais et le japonais, ainsi que des scénarios de texte complexes tels que l'écriture manuscrite, le texte vertical et les caractères rares. La précision globale de reconnaissance de PP-OCRv5 a atteint des niveaux de pointe dans l'industrie, améliorant considérablement l'efficacité et la vitesse de déploiement.

En termes de parsing de documents, PaddleOCR 3.0 introduit la solution universelle de parsing de documents, PP-StructureV3. Cette solution innovante renforce les capacités de détection de mise en page, de reconnaissance de tableaux et de reconnaissance de formules, tout en améliorant la compréhension des graphiques et en restaurant les séquences de lecture multi-colonnes. Elle peut produire des résultats au format Markdown et JSON, démontrant sa polyvalence dans le traitement de divers types de documents.

Compréhension Avancée des Documents

De plus, PaddleOCR 3.0 propose la solution intelligente de compréhension des documents, PP-ChatOCRv4, qui prend en charge nativement le modèle Wenxin large 4.5 Turbo. Cette nouvelle solution a réalisé une augmentation de 15 % de la précision d'extraction d'informations clés par rapport à son prédécesseur. En intégrant les forces des modèles grands et petits, PP-ChatOCRv4 permet l'utilisation hors ligne du modèle de compréhension de documents multimodaux, PP-DocBee2. Cet outil complet répond aux défis complexes d'extraction d'informations de documents, y compris l'analyse de mise en page, la reconnaissance de caractères rares, les PDF multi-pages, les tableaux et la reconnaissance de sceaux.

Conclusion

La sortie de PaddleOCR 3.0 souligne non seulement l'engagement de Baidu envers l'innovation continue dans la technologie OCR, mais fournit également aux développeurs des outils puissants et conviviaux pour accélérer le déploiement d'applications d'IA. Pour ceux qui souhaitent explorer PaddleOCR 3.0, le code open-source est disponible sur GitHub.

Restez informé des dernières tendances en technologie IA en suivant notre section quotidienne d'actualités IA, où nous fournissons des informations sur l'évolution du paysage de l'intelligence artificielle et ses applications.