PaddleOCR 3.0 リリース: オープンソースのアップデートでOCR精度が13%向上

Baidu PaddleOCR 3.0: OCR精度の大幅な向上

2025年5月20日、Baidu PaddleチームはPaddleOCR 3.0を正式に発表し、光学文字認識（OCR）技術における重要なマイルストーンを迎えました。このオープンソース版は、テキスト認識精度が驚異的に13%向上し、多言語サポート、手書き認識、高精度の文書解析機能が強化されています。

PaddleOCRはその誕生以来、最先端のアルゴリズムとさまざまな著名なオープンソースプロジェクトにおける実用的な応用により、学術界と産業界の両方から高く評価されています。最新のバージョンであるPaddleOCR 3.0は、PaddlePaddleフレームワーク3.0と完全に互換性があり、開発者はその高度な機能をシームレスに活用できます。

PaddleOCR 3.0の主な機能

PaddleOCR 3.0の際立った機能の一つは、全シナリオ対応のテキスト認識モデル、PP-OCRv5です。このモデルは、簡体字中国語、繁体字中国語、ピンイン、英語、日本語の5つの異なるテキストタイプをサポートし、手書き、縦書き、希少文字などの複雑なテキストシナリオにも対応しています。PP-OCRv5の全体的な認識精度は業界トップレベルに達し、展開効率と速度を大幅に向上させています。

文書解析に関して、PaddleOCR 3.0はユニバーサル文書解析ソリューション、PP-StructureV3を導入しています。この革新的なソリューションは、レイアウト検出、表認識、数式認識の能力を強化し、チャートの理解を改善し、複数列の読み取りシーケンスを復元します。結果はMarkdownおよびJSON形式で出力でき、さまざまな文書タイプを扱う柔軟性を示しています。

高度な文書理解

さらに、PaddleOCR 3.0はインテリジェントな文書理解ソリューション、PP-ChatOCRv4を搭載しており、Wenxin大モデル4.5 Turboをネイティブにサポートしています。この新しいソリューションは、前のバージョンに比べて重要情報抽出精度が15%向上しました。大モデルと小モデルの強みを統合することで、PP-ChatOCRv4はマルチモーダル文書理解モデル、PP-DocBee2のオフライン使用を可能にします。この包括的なツールは、レイアウト分析、希少文字認識、複数ページのPDF、表、印鑑認識など、複雑な文書情報抽出の課題に対応します。

結論

PaddleOCR 3.0のリリースは、BaiduのOCR技術における継続的な革新へのコミットメントを強調するだけでなく、開発者にAIアプリケーションの展開を加速するための強力で使いやすいツールを提供します。PaddleOCR 3.0を探求したい方は、オープンソースコードがGitHubで入手可能です。

AI技術の最新トレンドを把握するために、毎日のAIニュースセクションをフォローしてください。ここでは、人工知能とその応用の進化する風景に関する洞察を提供しています。

この記事はAINavHub Dailyによって提供されています。詳細についてはAINavHubをご覧ください。