OpenAI’s o3 Model Claims Human-Level Intelligence on Benchmark, But It Might Not Be That Smart
ओपनएआई ने पिछले महीने कृत्रिम बुद्धिमत्ता (एआई) मॉडल की तर्क-केंद्रित ओ3 श्रृंखला का अनावरण किया। एक लाइव स्ट्रीम के दौरान, कंपनी ने आंतरिक परीक्षण के आधार पर मॉडल के बेंचमार्क स्कोर साझा किए। जबकि सभी साझा किए गए स्कोर प्रभावशाली थे और ओ1 के उत्तराधिकारी की बेहतर क्षमताओं पर प्रकाश डाला, एक बेंचमार्क स्कोर सामने आया। एआरसी-एजीआई बेंचमार्क पर, बड़े भाषा मॉडल (एलएलएम) ने 85 प्रतिशत स्कोर किया, जिसने पिछले सर्वश्रेष्ठ स्कोर को 30 प्रतिशत के अंतर से पीछे छोड़ दिया। दिलचस्प बात यह है कि यह स्कोर एक औसत मानव द्वारा परीक्षण में प्राप्त किए गए स्कोर के बराबर है।
ARC-AGI बेंचमार्क पर OpenAI का स्कोर 85 प्रतिशत है
हालाँकि, सिर्फ इसलिए कि o3 ने परीक्षण में इतना उच्च अंक प्राप्त किया, क्या इसका मतलब यह है कि इसकी बुद्धि एक औसत मानव के बराबर है? इसका उत्तर देना आसान होगा यदि एआई मॉडल सार्वजनिक डोमेन में जारी किया जाए और हम इसका परीक्षण कर सकें। चूँकि OpenAI ने मॉडल की वास्तुकला, प्रशिक्षण तकनीक या डेटासेट के बारे में कुछ भी खुलासा नहीं किया है, इसलिए निर्णायक रूप से कुछ भी दावा करना मुश्किल है।
एआई फर्म के तर्क-केंद्रित मॉडल के बारे में कुछ चीजें हैं जो हम जानते हैं जो हमें यह समझने में मदद कर सकती हैं कि ओपनएआई के आगामी एलएलएम से क्या उम्मीद की जाए। सबसे पहले, अब तक, ओ-सीरीज़ मॉडल की वास्तुकला या ढांचे में कोई बड़ा बदलाव नहीं हुआ है, लेकिन बढ़ी हुई क्षमताओं को प्रदर्शित करने के लिए उन्हें ठीक से तैयार किया गया है।
उदाहरण के लिए, डेवलपर्स ने AI मॉडल की o1 श्रृंखला के साथ एक तकनीक का उपयोग किया जिसे टेस्ट-टाइम कंप्यूट कहा जाता है। इसके साथ, एआई मॉडल को सिद्धांतों का परीक्षण करने और किसी भी गलती को सुधारने के लिए एक प्रश्न और कार्यक्षेत्र पर खर्च करने के लिए अतिरिक्त प्रसंस्करण समय दिया गया था। इसी प्रकार, GPT-4o मॉडल GPT-4 का एक परिष्कृत संस्करण था।
यह संभावना नहीं है कि कंपनी ने o3 मॉडल के साथ आर्किटेक्चर में बड़े बदलाव किए होंगे, यह देखते हुए कि यह GPT-5 AI मॉडल पर भी काम करने की अफवाह है, जिसे इस साल के अंत में लॉन्च किया जा सकता है।
एआरसी-एजीआई (एब्सट्रैक्ट रीजनिंग कॉर्पस – आर्टिफिशियल जनरल इंटेलिजेंस) बेंचमार्क की बात करें तो इसमें ग्रिड-आधारित पैटर्न पहचान प्रश्नों की एक श्रृंखला है, जिन्हें हल करने के लिए तर्क और स्थानिक समझ क्षमताओं की आवश्यकता होती है। यह तर्क और योग्यता-आधारित तर्क पर ध्यान केंद्रित करने वाले उच्च-गुणवत्ता वाले डेटा के एक बड़े डेटासेट के साथ किया जा सकता है।
हालाँकि, यदि यह इतना सरल होता, तो पुराने AI मॉडल ने भी परीक्षण में उच्च अंक प्राप्त किए होते। विशेष रूप से, पिछला उच्चतम स्कोर 55 प्रतिशत था, जबकि ओ3 का 85 प्रतिशत स्कोर था। यह इस बात पर प्रकाश डालता है कि डेवलपर्स ने मॉडल की तर्क क्षमताओं को बढ़ाने के लिए नई शोधन तकनीक और एल्गोरिदम जोड़े हैं। जब तक OpenAI आधिकारिक तौर पर तकनीकी विवरण का खुलासा नहीं करता तब तक इसकी पूरी सीमा नहीं बताई जा सकती।
ऐसा कहा जा रहा है कि, यह संभावना नहीं है कि ओ3 एआई मॉडल एजीआई या मानव-स्तर की बुद्धिमत्ता तक पहुंच गया होगा। सबसे पहले, यदि ऐसा होता, तो यह Microsoft के साथ कंपनी की साझेदारी के अंत का प्रतीक होता, जो कि OpenAI मॉडल के AGI स्थिति में आने के बाद समाप्त हो जाती है। दूसरा, एआई के गॉडफादर जेफ्री हिंटन सहित कई एआई विशेषज्ञों ने बार-बार इस बात पर प्रकाश डाला है कि हम एजीआई तक पहुंचने से कई साल दूर हैं।
अंततः, एजीआई इतनी बड़ी उपलब्धि है कि यदि ओपनएआई उस मील के पत्थर तक पहुंच गया, तो यह इसके बारे में सूक्ष्म संकेत साझा करने के बजाय लोगों को स्पष्ट रूप से बताएगा। यहां इस बात की अधिक संभावना है कि ओ3 एआई मॉडल ने मॉडल की पैटर्न-आधारित तर्क क्षमताओं को बेहतर बनाने का एक तरीका ढूंढ लिया है (या तो पर्याप्त नमूना डेटा जोड़कर या प्रशिक्षण विधियों में बदलाव करके), जैसा कि पीटीआई रिपोर्ट में भी बताया गया है।
हालाँकि, यह सुधार संभवतः बहुत अलग है और इसका मतलब मॉडल के समग्र बुद्धिमत्ता स्तर में वृद्धि नहीं है।