Google Genie, an AI Model That Can Generate 2D Platformer Games, Introduced; How It Works
गूगल ने एक और जनरेटिव आर्टिफिशियल इंटेलिजेंस (AI) मॉडल पेश किया है जो अनगिनत 2D प्लेटफ़ॉर्मर वीडियो गेम बना सकता है। जिनी को एक एक्शन-कंट्रोलेबल वर्ल्ड मॉडल के रूप में प्रचारित किया जा रहा है जिसे अनसुपरवाइज्ड वीडियो गेम डेटा पर प्रशिक्षित किया गया था। यह वीडियो गेम के स्तर को उत्पन्न करने के लिए पूर्वानुमानित विश्लेषण का उपयोग करता है और एक खेलने योग्य चरित्र को भी नियंत्रित कर सकता है और उसकी हरकतों को निर्धारित कर सकता है। दिलचस्प बात यह है कि ओपनएआई ने इस महीने की शुरुआत में सोरा नामक एक वर्ल्ड मॉडल भी पेश किया, जो एक मिनट तक की लंबाई के हाइपररियलिस्टिक वीडियो बना सकता है।
यह घोषणा गूगल डीपमाइंड के ओपन-एंडेडनेस टीम लीड टिम रॉकटैशेल ने एक श्रृंखला के माध्यम से की। पदों एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर। उन्होंने कहा, “हम जिनी को पेश करते हैं, जो एक ऐसा आधार विश्व मॉडल है जिसे विशेष रूप से इंटरनेट वीडियो से प्रशिक्षित किया गया है जो छवि संकेतों के आधार पर कार्रवाई-नियंत्रण योग्य 2D दुनिया की एक अंतहीन विविधता उत्पन्न कर सकता है।” जिनी इस पहलू में अद्वितीय है कि यह केवल एक विशिष्ट चीज़ उत्पन्न कर सकता है, और यह एकमात्र वीडियो गेम-जनरेटिंग मॉडल भी है जिसे अब तक सार्वजनिक रूप से घोषित किया गया है।
Google का जिनी AI मॉडल अभी तक जनता के लिए खुला नहीं है और अभी केवल एक शोध मॉडल के रूप में मौजूद है। यही कारण है कि इसकी उपयोगकर्ता-केंद्रित कार्यक्षमताएँ अभी तक ज्ञात नहीं हैं। यह छवियों का उपयोग करके वीडियो गेम के स्तर उत्पन्न कर सकता है, लेकिन यह पाठ संकेत या वीडियो संकेत ले सकता है या नहीं, यह ज्ञात नहीं है। पेपर का एक प्रीप्रिंट संस्करण ऑनलाइन पोस्ट किया गया था जो इसके तकनीकी पहलुओं पर प्रकाश डालता है। AI मॉडल को 2,00,000 घंटे के वीडियो गेम फुटेज पर बिना किसी पर्यवेक्षण के प्रशिक्षित किया गया था और इसमें 11 बिलियन पैरामीटर शामिल हैं। मॉडल की वास्तुकला तीन अलग-अलग भागों का उपयोग करती है – एक स्पैटियोटेम्पोरल वीडियो टोकेनाइज़र, एक ऑटोरेग्रेसिव डायनेमिक्स मॉडल और एक सरल और स्केलेबल लेटेंट एक्शन मॉडल।
गूगल जिनी कैसे काम करता है
सरल शब्दों में कहें तो, स्पैटियोटेम्पोरल वीडियो टोकेनाइजर वीडियो गेम फुटेज लेता है, उसे डेटासेट के छोटे-छोटे टुकड़ों में तोड़ता है, जिन्हें टोकन के रूप में जाना जाता है, जिन्हें फाउंडेशन मॉडल द्वारा उपयोग किया जा सकता है। स्पैटियोटेम्पोरल बताता है कि डेटा को समय और स्थान दोनों में तोड़ा जाता है (उदाहरण के लिए, एक वीडियो को 2-सेकंड की क्लिप में तोड़ा गया था, लेकिन प्रत्येक फ्रेम को कई टुकड़ों में भी तोड़ा गया था)।
ऑटोरिग्रैसिव डायनेमिक मॉडल इसके बाद आता है। ऑटोरिग्रैसिव मॉडल अनिवार्य रूप से इस आधार पर भविष्य की भविष्यवाणी करते हैं कि किसी चीज़ ने अतीत में कैसा प्रदर्शन किया है, और डायनेमिक मॉडल यह समझने के लिए ज़िम्मेदार है कि समय के साथ चीज़ें कैसे बदलती और आगे बढ़ती हैं। तो यह वह हिस्सा है जहाँ पूर्वानुमानात्मक विश्लेषण शुरू होता है। अंतिम घटक लेटेंट एक्शन मॉडल है। यह वह जगह है जहाँ AI समझता है कि खेलने योग्य चरित्र वीडियो गेम की दुनिया में कैसे चलता और घूमता है।
रॉकटैशेल ने कहा, “जीनी द्वारा सीखा गया अव्यक्त क्रिया स्थान न केवल विविधतापूर्ण और सुसंगत है, बल्कि व्याख्या योग्य भी है। कुछ मोड़ों के बाद, मनुष्य आम तौर पर अर्थपूर्ण रूप से सार्थक क्रियाओं (जैसे बाएं, दाएं जाना, कूदना आदि) के लिए मैपिंग का पता लगा लेते हैं।” यह हिस्सा महत्वपूर्ण है क्योंकि यह इस बात पर प्रकाश डालता है कि यह AI मॉडल जिस मुख्य समस्या को हल करता है, वह केवल 2D वीडियो गेम स्तर उत्पन्न करना नहीं है, बल्कि यह समझना भी है कि बुनियादी हलचलें कैसे होती हैं, और उस जानकारी का उपयोग वास्तविक दुनिया के इलाकों में नेविगेट करने के लिए कैसे किया जा सकता है।
इस बात पर प्रकाश डालते हुए उन्होंने कहा, जोड़ा“जीनी का मॉडल सामान्य है और 2D तक सीमित नहीं है। हम रोबोटिक्स डेटा (RT-1) पर बिना किसी कार्रवाई के भी एक जीनी को प्रशिक्षित करते हैं, और प्रदर्शित करते हैं कि हम वहां भी एक एक्शन कंट्रोल करने योग्य सिम्युलेटर सीख सकते हैं। हमें लगता है कि यह AGI के लिए सामान्य विश्व मॉडल की दिशा में एक आशाजनक कदम है।”