गूगल ने एक और जनरेटिव आर्टिफिशियल इंटेलिजेंस (AI) मॉडल पेश किया है जो अनगिनत 2D प्लेटफ़ॉर्मर वीडियो गेम बना सकता है। जिनी को एक एक्शन-कंट्रोलेबल वर्ल्ड मॉडल के रूप में प्रचारित किया जा रहा है जिसे अनसुपरवाइज्ड वीडियो गेम डेटा पर प्रशिक्षित किया गया था। यह वीडियो गेम के स्तर को उत्पन्न करने के लिए पूर्वानुमानित विश्लेषण का उपयोग करता है और एक खेलने योग्य चरित्र को भी नियंत्रित कर सकता है और उसकी हरकतों को निर्धारित कर सकता है। दिलचस्प बात यह है कि ओपनएआई ने इस महीने की शुरुआत में सोरा नामक एक वर्ल्ड मॉडल भी पेश किया, जो एक मिनट तक की लंबाई के हाइपररियलिस्टिक वीडियो बना सकता है।
यह घोषणा गूगल डीपमाइंड के ओपन-एंडेडनेस टीम लीड टिम रॉकटैशेल ने एक श्रृंखला के माध्यम से की। पदों एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर। उन्होंने कहा, “हम जिनी को पेश करते हैं, जो एक ऐसा आधार विश्व मॉडल है जिसे विशेष रूप से इंटरनेट वीडियो से प्रशिक्षित किया गया है जो छवि संकेतों के आधार पर कार्रवाई-नियंत्रण योग्य 2D दुनिया की एक अंतहीन विविधता उत्पन्न कर सकता है।” जिनी इस पहलू में अद्वितीय है कि यह केवल एक विशिष्ट चीज़ उत्पन्न कर सकता है, और यह एकमात्र वीडियो गेम-जनरेटिंग मॉडल भी है जिसे अब तक सार्वजनिक रूप से घोषित किया गया है।
Google का जिनी AI मॉडल अभी तक जनता के लिए खुला नहीं है और अभी केवल एक शोध मॉडल के रूप में मौजूद है। यही कारण है कि इसकी उपयोगकर्ता-केंद्रित कार्यक्षमताएँ अभी तक ज्ञात नहीं हैं। यह छवियों का उपयोग करके वीडियो गेम के स्तर उत्पन्न कर सकता है, लेकिन यह पाठ संकेत या वीडियो संकेत ले सकता है या नहीं, यह ज्ञात नहीं है। पेपर का एक प्रीप्रिंट संस्करण ऑनलाइन पोस्ट किया गया था जो इसके तकनीकी पहलुओं पर प्रकाश डालता है। AI मॉडल को 2,00,000 घंटे के वीडियो गेम फुटेज पर बिना किसी पर्यवेक्षण के प्रशिक्षित किया गया था और इसमें 11 बिलियन पैरामीटर शामिल हैं। मॉडल की वास्तुकला तीन अलग-अलग भागों का उपयोग करती है – एक स्पैटियोटेम्पोरल वीडियो टोकेनाइज़र, एक ऑटोरेग्रेसिव डायनेमिक्स मॉडल और एक सरल और स्केलेबल लेटेंट एक्शन मॉडल।
गूगल जिनी कैसे काम करता है
सरल शब्दों में कहें तो, स्पैटियोटेम्पोरल वीडियो टोकेनाइजर वीडियो गेम फुटेज लेता है, उसे डेटासेट के छोटे-छोटे टुकड़ों में तोड़ता है, जिन्हें टोकन के रूप में जाना जाता है, जिन्हें फाउंडेशन मॉडल द्वारा उपयोग किया जा सकता है। स्पैटियोटेम्पोरल बताता है कि डेटा को समय और स्थान दोनों में तोड़ा जाता है (उदाहरण के लिए, एक वीडियो को 2-सेकंड की क्लिप में तोड़ा गया था, लेकिन प्रत्येक फ्रेम को कई टुकड़ों में भी तोड़ा गया था)।
ऑटोरिग्रैसिव डायनेमिक मॉडल इसके बाद आता है। ऑटोरिग्रैसिव मॉडल अनिवार्य रूप से इस आधार पर भविष्य की भविष्यवाणी करते हैं कि किसी चीज़ ने अतीत में कैसा प्रदर्शन किया है, और डायनेमिक मॉडल यह समझने के लिए ज़िम्मेदार है कि समय के साथ चीज़ें कैसे बदलती और आगे बढ़ती हैं। तो यह वह हिस्सा है जहाँ पूर्वानुमानात्मक विश्लेषण शुरू होता है। अंतिम घटक लेटेंट एक्शन मॉडल है। यह वह जगह है जहाँ AI समझता है कि खेलने योग्य चरित्र वीडियो गेम की दुनिया में कैसे चलता और घूमता है।
रॉकटैशेल ने कहा, “जीनी द्वारा सीखा गया अव्यक्त क्रिया स्थान न केवल विविधतापूर्ण और सुसंगत है, बल्कि व्याख्या योग्य भी है। कुछ मोड़ों के बाद, मनुष्य आम तौर पर अर्थपूर्ण रूप से सार्थक क्रियाओं (जैसे बाएं, दाएं जाना, कूदना आदि) के लिए मैपिंग का पता लगा लेते हैं।” यह हिस्सा महत्वपूर्ण है क्योंकि यह इस बात पर प्रकाश डालता है कि यह AI मॉडल जिस मुख्य समस्या को हल करता है, वह केवल 2D वीडियो गेम स्तर उत्पन्न करना नहीं है, बल्कि यह समझना भी है कि बुनियादी हलचलें कैसे होती हैं, और उस जानकारी का उपयोग वास्तविक दुनिया के इलाकों में नेविगेट करने के लिए कैसे किया जा सकता है।
इस बात पर प्रकाश डालते हुए उन्होंने कहा, जोड़ा“जीनी का मॉडल सामान्य है और 2D तक सीमित नहीं है। हम रोबोटिक्स डेटा (RT-1) पर बिना किसी कार्रवाई के भी एक जीनी को प्रशिक्षित करते हैं, और प्रदर्शित करते हैं कि हम वहां भी एक एक्शन कंट्रोल करने योग्य सिम्युलेटर सीख सकते हैं। हमें लगता है कि यह AGI के लिए सामान्य विश्व मॉडल की दिशा में एक आशाजनक कदम है।”