PaddleOCR 3.0 जारी: ओपन सोर्स अपडेट ने OCR सटीकता को 13% बढ़ाया
Baidu PaddleOCR 3.0: OCR सटीकता में एक महत्वपूर्ण छलांग
20 मई, 2025 को, Baidu Paddle टीम ने आधिकारिक रूप से PaddleOCR 3.0 लॉन्च किया, जो ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) तकनीक में एक प्रमुख मील का पत्थर है। यह ओपन-सोर्स संस्करण टेक्स्ट पहचान सटीकता में 13% की उल्लेखनीय वृद्धि के साथ-साथ बहुभाषी समर्थन, हस्तलेख पहचान और उच्च-सटीकता दस्तावेज़ पार्सिंग क्षमताओं का दावा करता है।
अपने आरंभ से, PaddleOCR ने अकादमी और उद्योग दोनों से प्रशंसा प्राप्त की है, इसके अत्याधुनिक एल्गोरिदम और विभिन्न प्रसिद्ध ओपन-सोर्स परियोजनाओं में व्यावहारिक अनुप्रयोगों के लिए। नवीनतम संस्करण, PaddleOCR 3.0, PaddlePaddle फ्रेमवर्क 3.0 के साथ पूरी तरह से संगत है, यह सुनिश्चित करते हुए कि डेवलपर्स इसके उन्नत सुविधाओं का सहजता से लाभ उठा सकें।
PaddleOCR 3.0 की प्रमुख विशेषताएँ
PaddleOCR 3.0 की एक प्रमुख विशेषता सभी-परिदृश्य टेक्स्ट पहचान मॉडल, PP-OCRv5 है। यह मॉडल पांच विभिन्न टेक्स्ट प्रकारों का समर्थन करता है, जिसमें सरल चीनी, पारंपरिक चीनी, पिनयिन, अंग्रेजी और जापानी शामिल हैं, साथ ही हस्तलेख, ऊर्ध्वाधर टेक्स्ट और दुर्लभ वर्णों जैसे जटिल टेक्स्ट परिदृश्यों का भी समर्थन करता है। PP-OCRv5 की समग्र पहचान सटीकता उद्योग में अग्रणी स्तर तक पहुँच गई है, जिससे तैनाती की दक्षता और गति में महत्वपूर्ण सुधार हुआ है।
दस्तावेज़ पार्सिंग के संदर्भ में, PaddleOCR 3.0 सार्वभौमिक दस्तावेज़ पार्सिंग समाधान, PP-StructureV3 पेश करता है। यह नवोन्मेषी समाधान लेआउट पहचान, तालिका पहचान और सूत्र पहचान में क्षमताओं को मजबूत करता है, जबकि चार्ट समझने और मल्टी-कॉलम पढ़ने के अनुक्रमों को पुनर्स्थापित करने में भी सुधार करता है। यह परिणामों को Markdown और JSON प्रारूपों में आउटपुट कर सकता है, जो विभिन्न दस्तावेज़ प्रकारों को संभालने में इसकी बहुपरकारीता को दर्शाता है।
उन्नत दस्तावेज़ समझ
इसके अतिरिक्त, PaddleOCR 3.0 में बुद्धिमान दस्तावेज़ समझ समाधान, PP-ChatOCRv4 है, जो स्वदेशी रूप से Wenxin बड़े मॉडल 4.5 टर्बो का समर्थन करता है। इस नए समाधान ने अपने पूर्ववर्ती की तुलना में कुंजी जानकारी निकालने की सटीकता में 15% की वृद्धि हासिल की है। बड़े और छोटे मॉडलों की ताकतों को एकीकृत करके, PP-ChatOCRv4 मल्टी-मोडल दस्तावेज़ समझ मॉडल, PP-DocBee2 का ऑफ़लाइन उपयोग सक्षम करता है। यह व्यापक उपकरण जटिल दस्तावेज़ जानकारी निकालने की चुनौतियों का समाधान करता है, जिसमें लेआउट विश्लेषण, दुर्लभ वर्ण पहचान, मल्टी-पृष्ठ PDF, तालिकाएँ, और मुहर पहचान शामिल हैं।
निष्कर्ष
PaddleOCR 3.0 का विमोचन न केवल Baidu की OCR तकनीक में निरंतर नवाचार के प्रति प्रतिबद्धता को उजागर करता है, बल्कि डेवलपर्स को शक्तिशाली और उपयोगकर्ता-अनुकूल उपकरण प्रदान करता है ताकि AI अनुप्रयोगों की तैनाती को तेज किया जा सके। जो लोग PaddleOCR 3.0 का अन्वेषण करने में रुचि रखते हैं, उनके लिए ओपन-सोर्स कोड GitHub पर उपलब्ध है।
AI प्रौद्योगिकी में नवीनतम प्रवृत्तियों के साथ अद्यतित रहने के लिए हमारे दैनिक AI समाचार अनुभाग का पालन करें, जहाँ हम कृत्रिम बुद्धिमत्ता और इसके अनुप्रयोगों के विकसित परिदृश्य के बारे में अंतर्दृष्टि प्रदान करते हैं।
यह लेख AINavHub दैनिक द्वारा प्रस्तुत किया गया है। अधिक जानकारी के लिए, AINavHub पर जाएँ।
आपकी आवश्यकताओं के लिए अनुकूलित नवोन्मेषी समाधानों की एक विस्तृत श्रृंखला खोजें। अधिक जानें और हमारे AI टूल डायरेक्टरी पर उपयोगकर्ताओं के लिए निर्मित AI उपकरणों का अन्वेषण करें, जहाँ आप स्मार्ट खोज और AI सहायक जैसी सुविधाओं का उपयोग करके अपने लिए सही उपकरण खोज सकते हैं।







