PaddleOCR 3.0 veröffentlicht: Open-Source-Update erhöht die OCR-Genauigkeit um 13%

Baidu PaddleOCR 3.0: Ein bedeutender Fortschritt in der OCR-Genauigkeit

Am 20. Mai 2025 hat das Baidu Paddle-Team offiziell PaddleOCR 3.0 eingeführt, was einen wichtigen Meilenstein in der optischen Zeichenerkennung (OCR) darstellt. Diese Open-Source-Version bietet eine bemerkenswerte Verbesserung der Texterkennungsgenauigkeit um 13%, sowie verbesserte Unterstützung für mehrere Sprachen, Handschriftenerkennung und hochpräzise Dokumentenanalysen.

Seit seiner Einführung hat PaddleOCR sowohl in der Wissenschaft als auch in der Industrie Anerkennung gefunden, dank seiner fortschrittlichen Algorithmen und praktischen Anwendungen in verschiedenen bekannten Open-Source-Projekten. Die neueste Version, PaddleOCR 3.0, ist vollständig kompatibel mit dem PaddlePaddle-Framework 3.0, was sicherstellt, dass Entwickler seine fortschrittlichen Funktionen nahtlos nutzen können.

Hauptmerkmale von PaddleOCR 3.0

Eines der herausragenden Merkmale von PaddleOCR 3.0 ist das All-Szenario-Texterkennungsmodell, PP-OCRv5. Dieses Modell unterstützt fünf verschiedene Textarten, darunter vereinfachtes Chinesisch, traditionelles Chinesisch, Pinyin, Englisch und Japanisch, sowie komplexe Textszenarien wie Handschrift, vertikalen Text und seltene Zeichen. Die Gesamterkennungsgenauigkeit von PP-OCRv5 hat branchenführende Werte erreicht, was die Bereitstellungseffizienz und -geschwindigkeit erheblich verbessert.

Im Bereich der Dokumentenanalysen führt PaddleOCR 3.0 die universelle Dokumentenanalyselösung, PP-StructureV3, ein. Diese innovative Lösung stärkt die Fähigkeiten in der Layout-Erkennung, Tabellen-Erkennung und Formel-Erkennung, während sie auch das Verständnis von Diagrammen verbessert und mehrspaltige Lesesequenzen wiederherstellt. Sie kann Ergebnisse sowohl im Markdown- als auch im JSON-Format ausgeben, was ihre Vielseitigkeit im Umgang mit verschiedenen Dokumenttypen zeigt.

Fortschrittliches Dokumentenverständnis

Zusätzlich bietet PaddleOCR 3.0 die intelligente Dokumentenverständnisslösung, PP-ChatOCRv4, die nativ das Wenxin-Großmodell 4.5 Turbo unterstützt. Diese neue Lösung hat eine Steigerung der Genauigkeit bei der Extraktion von Schlüsselinformationen um 15% im Vergleich zu ihrem Vorgänger erreicht. Durch die Integration der Stärken sowohl großer als auch kleiner Modelle ermöglicht PP-ChatOCRv4 die Offline-Nutzung des multimodalen Dokumentenverständnismodells, PP-DocBee2. Dieses umfassende Tool adressiert komplexe Herausforderungen bei der Extraktion von Dokumenteninformationen, einschließlich Layout-Analyse, Erkennung seltener Zeichen, mehrseitiger PDFs, Tabellen und Siegel-Erkennung.

Fazit

Die Veröffentlichung von PaddleOCR 3.0 unterstreicht nicht nur Baidus Engagement für kontinuierliche Innovationen in der OCR-Technologie, sondern stattet Entwickler auch mit leistungsstarken und benutzerfreundlichen Werkzeugen aus, um die Bereitstellung von KI-Anwendungen zu beschleunigen. Für diejenigen, die PaddleOCR 3.0 erkunden möchten, ist der Open-Source-Code auf GitHub verfügbar.

Bleiben Sie auf dem Laufenden über die neuesten Trends in der KI-Technologie, indem Sie unseren täglichen KI-Nachrichtenteil verfolgen, in dem wir Einblicke in die sich entwickelnde Landschaft der künstlichen Intelligenz und ihrer Anwendungen bieten.

Dieser Artikel wird Ihnen von AINavHub Daily präsentiert. Für weitere Informationen besuchen Sie AINavHub.

Entdecken Sie eine Vielzahl innovativer Lösungen, die auf Ihre Bedürfnisse zugeschnitten sind. Erfahren Sie mehr und erkunden Sie KI-Tools, die für Benutzer entwickelt wurden, in unserem AI Tool Directory, wo Sie Funktionen wie intelligente Suche und KI-Assistenten finden können, um das perfekte Tool für Sie zu finden.