PaddleOCR 3.0 Lançado: Atualização de Código Aberto Aumenta a Precisão do OCR em 13%

Baidu PaddleOCR 3.0: Um Salto Significativo na Precisão de OCR

Em 20 de maio de 2025, a equipe do Baidu Paddle lançou oficialmente o PaddleOCR 3.0, marcando um grande marco na tecnologia de reconhecimento óptico de caracteres (OCR). Esta versão de código aberto apresenta uma notável melhoria de 13% na precisão do reconhecimento de texto, além de suporte aprimorado para múltiplos idiomas, reconhecimento de escrita manual e capacidades de parsing de documentos de alta precisão.

Desde sua criação, o PaddleOCR tem recebido elogios tanto da academia quanto da indústria, graças aos seus algoritmos de ponta e aplicações práticas em vários projetos de código aberto bem conhecidos. A última iteração, PaddleOCR 3.0, é totalmente compatível com o framework PaddlePaddle 3.0, garantindo que os desenvolvedores possam aproveitar seus recursos avançados de forma integrada.

Principais Recursos do PaddleOCR 3.0

Um dos recursos mais destacados do PaddleOCR 3.0 é o modelo de reconhecimento de texto para todos os cenários, PP-OCRv5. Este modelo suporta cinco tipos diferentes de texto, incluindo Chinês Simplificado, Chinês Tradicional, Pinyin, Inglês e Japonês, além de cenários de texto complexos, como escrita manual, texto vertical e caracteres raros. A precisão geral de reconhecimento do PP-OCRv5 alcançou níveis líderes na indústria, melhorando significativamente a eficiência e a velocidade de implantação.

Em termos de parsing de documentos, o PaddleOCR 3.0 introduz a solução universal de parsing de documentos, PP-StructureV3. Esta solução inovadora fortalece as capacidades em detecção de layout, reconhecimento de tabelas e reconhecimento de fórmulas, além de melhorar a compreensão de gráficos e restaurar sequências de leitura em múltiplas colunas. Ela pode gerar resultados em formatos Markdown e JSON, demonstrando sua versatilidade no manuseio de vários tipos de documentos.

Compreensão Avançada de Documentos

Além disso, o PaddleOCR 3.0 apresenta a solução inteligente de compreensão de documentos, PP-ChatOCRv4, que suporta nativamente o modelo grande Wenxin 4.5 Turbo. Esta nova solução alcançou um aumento de 15% na precisão da extração de informações-chave em comparação com seu predecessor. Ao integrar as forças de modelos grandes e pequenos, o PP-ChatOCRv4 permite o uso offline do modelo de compreensão de documentos multimodal, PP-DocBee2. Esta ferramenta abrangente aborda desafios complexos de extração de informações de documentos, incluindo análise de layout, reconhecimento de caracteres raros, PDFs de várias páginas, tabelas e reconhecimento de selos.

Conclusão

O lançamento do PaddleOCR 3.0 não apenas destaca o compromisso da Baidu com a inovação contínua na tecnologia OCR, mas também equipa os desenvolvedores com ferramentas poderosas e fáceis de usar para acelerar a implantação de aplicações de IA. Para aqueles interessados em explorar o PaddleOCR 3.0, o código-fonte de código aberto está disponível em GitHub.

Mantenha-se atualizado com as últimas tendências em tecnologia de IA seguindo nossa seção diária de notícias de IA, onde fornecemos insights sobre o cenário em evolução da inteligência artificial e suas aplicações.

Este artigo é trazido a você pelo AINavHub Daily. Para mais informações, visite AINavHub.

Descubra uma ampla gama de soluções inovadoras adaptadas às suas necessidades. Saiba mais e explore ferramentas de IA construídas para usuários em nosso Diretório de Ferramentas de IA, onde você pode explorar recursos como busca inteligente e assistentes de IA para encontrar a ferramenta perfeita para você.