Google DeepMind Unveils Genie 2 AI Model, Can Generate Playable 3D Worlds to Train AI Agents
Google डीपमाइंड ने बुधवार को जिनी कृत्रिम बुद्धिमत्ता (एआई) मॉडल के उत्तराधिकारी का अनावरण किया, जो अंतहीन 2डी गेम दुनिया उत्पन्न कर सकता है। जिनी 2 नाम दिया गया नया एआई मॉडल एकल इमेज प्रॉम्प्ट के आधार पर अद्वितीय एक्शन-नियंत्रणीय, खेलने योग्य 3डी वातावरण उत्पन्न करने में सक्षम है। जिनी 2 को एआई “विश्व मॉडल” कहते हुए, कंपनी ने कहा कि यह लगातार वस्तुओं के साथ मिनट-लंबे वातावरण उत्पन्न कर सकता है। कंपनी ने कहा कि इन जेनरेटेड वर्ल्ड को इंसानों द्वारा खेला जा सकता है या एआई एजेंटों को प्रशिक्षित करने के लिए इस्तेमाल किया जा सकता है।
गूगल डीपमाइंड ने जिनी 2 एआई मॉडल का अनावरण किया
एक ब्लॉग पोस्ट में, कंपनी ने नए AI मॉडल और उसकी क्षमताओं के बारे में विस्तार से बताया। जबकि इसका पूर्ववर्ती केवल 2डी प्लेटफ़ॉर्मर गेम के लिए गेम वर्ल्ड उत्पन्न कर सकता है, जिनी 2 एआई मॉडल सुसंगत मॉडल के साथ 3डी वर्ल्ड उत्पन्न कर सकता है जिसके साथ इंटरैक्ट किया जा सकता है। इसका मतलब है कि मनुष्य या एआई एजेंट इन वातावरणों में चल सकते हैं, दौड़ सकते हैं, तैर सकते हैं, चढ़ सकते हैं और अधिक क्रियाएं कर सकते हैं।
जिनी 2 की जनरेटिव क्षमताएं इसे मार्गों, इमारतों और वस्तुओं को उत्पन्न करने की अनुमति देती हैं जिन्हें इनपुट छवि में नहीं देखा जा सकता है। इन तत्वों को मॉडल द्वारा स्क्रैच से डिज़ाइन और प्रस्तुत किया गया है। इसके अतिरिक्त, फाउंडेशन मॉडल इन वातावरणों में स्थिरता बनाए रखने में भी सक्षम है। इसका मतलब यह है कि जब कोई खिलाड़ी एक क्षेत्र से दूर जाता है और वापस लौटता है, तब भी वातावरण वही रहता है।
इसके अलावा, जिनी 2 विभिन्न दृष्टिकोण उत्पन्न करने में सक्षम है जैसे कि प्रथम-व्यक्ति दृश्य, आइसोमेट्रिक दृश्य या तीसरे-व्यक्ति दृश्य। इसके अलावा, उपयोगकर्ता उत्पन्न दुनिया में वस्तुओं के साथ भी बातचीत कर सकते हैं और दरवाजा खोलने, गुब्बारा फोड़ने या सीढ़ी पर चढ़ने जैसी क्रियाएं कर सकते हैं। मॉडल को भौतिकी से संबंधित प्रभाव जैसे पानी की लहरें, धुआं, गुरुत्वाकर्षण, दिशात्मक प्रकाश, प्रतिबिंब और बहुत कुछ उत्पन्न करने के लिए भी प्रेरित किया जा सकता है।
तकनीकी विवरण पर आते हुए, डीपमाइंड ने बताया कि जिनी 2 एक ऑटोरेग्रेसिव अव्यक्त प्रसार मॉडल है और इसे एक बड़े वीडियो डेटासेट पर प्रशिक्षित किया गया है। ट्रांसफार्मर आर्किटेक्चर में एक ऑटोएनकोडर भी शामिल है जो इन दुनियाओं की फ्रेम-दर-फ्रेम पीढ़ी को सक्षम बनाता है।
विशेष रूप से, डीपमाइंड ने इस साल की शुरुआत में स्केलेबल इंस्ट्रक्शनल मल्टीवर्ल्ड एजेंट या सिमा नाम से एक एआई मॉडल भी जारी किया था, जो अनिवार्य रूप से 3डी दुनिया में एजेंटिक एआई कार्यों में सक्षम है। कंपनी का कहना है कि जिनी 2 समान एआई एजेंटों को अद्वितीय वातावरण प्रदान करने और उन्हें विभिन्न वास्तविक जीवन परिदृश्यों के लिए प्रशिक्षित करने में सक्षम है।
चूंकि विश्व मॉडल अद्वितीय वातावरण उत्पन्न कर सकता है, Google का कहना है कि इससे डेटा संदूषण का खतरा समाप्त हो जाएगा और डेवलपर्स को AI एजेंट की क्षमताओं का सही आकलन करने की अनुमति मिलेगी।