PaddleOCR 3.0 发布:开源更新提升 OCR 准确率 13%
百度 PaddleOCR 3.0:光学字符识别准确性的重大飞跃
2025年5月20日,百度 Paddle 团队正式推出 PaddleOCR 3.0,标志着光学字符识别(OCR)技术的一个重要里程碑。这个开源版本在文本识别准确性上取得了显著的13%提升,同时增强了多语言支持、手写识别和高精度文档解析能力。
自推出以来,PaddleOCR因其前沿算法和在多个知名开源项目中的实际应用而受到学术界和工业界的广泛赞誉。最新版本 PaddleOCR 3.0 完全兼容 PaddlePaddle 框架 3.0,确保开发者能够无缝利用其先进功能。
PaddleOCR 3.0 的主要特点
PaddleOCR 3.0 的一大亮点是全场景文本识别模型 PP-OCRv5。该模型支持五种不同的文本类型,包括简体中文、繁体中文、拼音、英语和日语,以及手写、竖排文本和稀有字符等复杂文本场景。PP-OCRv5 的整体识别准确性已达到行业领先水平,显著提升了部署效率和速度。
在文档解析方面,PaddleOCR 3.0 引入了通用文档解析解决方案 PP-StructureV3。这个创新解决方案增强了布局检测、表格识别和公式识别的能力,同时改善了图表理解和恢复多列阅读顺序的功能。它可以以 Markdown 和 JSON 格式输出结果,展示了其处理各种文档类型的多样性。
高级文档理解
此外,PaddleOCR 3.0 还具有智能文档理解解决方案 PP-ChatOCRv4,原生支持文心大模型 4.5 Turbo。这个新解决方案在关键信息提取准确性上比其前身提高了15%。通过整合大模型和小模型的优势,PP-ChatOCRv4 实现了多模态文档理解模型 PP-DocBee2 的离线使用。这个综合工具解决了复杂文档信息提取的挑战,包括布局分析、稀有字符识别、多页 PDF、表格和印章识别。
结论
PaddleOCR 3.0 的发布不仅强调了百度在 OCR 技术持续创新的承诺,还为开发者提供了强大且用户友好的工具,以加速 AI 应用的部署。对于那些有兴趣探索 PaddleOCR 3.0 的人,开源代码可在 GitHub 上获取。
通过关注我们的每日 AI 新闻部分,及时了解 AI 技术的最新趋势,我们提供对人工智能及其应用不断演变的洞察。
本文由 AINavHub Daily 提供。如需更多信息,请访问 AINavHub。
发现广泛的创新解决方案,满足您的需求。了解更多并探索为用户构建的 AI 工具,在我们的 AI 工具目录 中,您可以探索智能搜索和 AI 助手等功能,以找到适合您的完美工具。







