Google DeepMind Is Integrating Gemini 1.5 Pro in Robots That Can Navigate Real-World Environments
Google DeepMind ने गुरुवार को रोबोटिक्स और विज़न लैंग्वेज मॉडल (VLM) के क्षेत्र में हुई नई प्रगति को साझा किया। तकनीकी दिग्गज कंपनी का कृत्रिम बुद्धिमत्ता (एआई) अनुसंधान प्रभाग रोबोट में नई क्षमताएं विकसित करने के लिए उन्नत दृष्टि मॉडल के साथ काम कर रहा है। एक नए अध्ययन में, डीपमाइंड ने इस बात पर प्रकाश डाला कि जेमिनी 1.5 प्रो और इसकी लंबी संदर्भ विंडो का उपयोग करके अब डिवीजन को नेविगेशन और अपने रोबोटों की वास्तविक दुनिया की समझ में सफलता हासिल करने में सक्षम बनाया गया है। इस साल की शुरुआत में, एनवीडिया ने नई एआई तकनीक का भी अनावरण किया जो ह्यूमनॉइड रोबोटों में उन्नत क्षमताओं को शक्ति प्रदान करती है।
Google DeepMind रोबोट को बेहतर बनाने के लिए जेमिनी AI का उपयोग करता है
एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, Google डीपमाइंड ने खुलासा किया कि वह जेमिनी 1.5 प्रो के 2 मिलियन टोकन संदर्भ विंडो का उपयोग करके अपने रोबोटों को प्रशिक्षित कर रहा है। संदर्भ विंडो को एआई मॉडल के लिए दृश्यमान ज्ञान की विंडो के रूप में समझा जा सकता है, जिसका उपयोग करके यह पूछे गए विषय के आसपास मूर्त जानकारी को संसाधित करता है।
उदाहरण के लिए, यदि कोई उपयोगकर्ता एआई मॉडल से “सबसे लोकप्रिय आइसक्रीम स्वाद” के बारे में पूछता है, तो एआई मॉडल उस प्रश्न की जानकारी खोजने के लिए कीवर्ड आइसक्रीम और स्वाद की जांच करेगा। यदि यह सूचना विंडो बहुत छोटी है, तो एआई केवल विभिन्न आइसक्रीम स्वादों के नाम के साथ प्रतिक्रिया देने में सक्षम होगा। हालाँकि, यदि यह बड़ा है, तो एआई प्रत्येक आइसक्रीम स्वाद के बारे में लेखों की संख्या को देखने में भी सक्षम होगा ताकि यह पता लगाया जा सके कि किसका सबसे अधिक उल्लेख किया गया है और “लोकप्रियता कारक” का अनुमान लगाया जा सकता है।
डीपमाइंड अपने रोबोटों को वास्तविक दुनिया के वातावरण में प्रशिक्षित करने के लिए इस लंबी संदर्भ विंडो का लाभ उठा रहा है। प्रभाग का लक्ष्य यह देखना है कि क्या रोबोट किसी पर्यावरण के विवरण को याद रख सकता है और प्रासंगिक या अस्पष्ट शब्दों में पर्यावरण के बारे में पूछे जाने पर उपयोगकर्ताओं की सहायता कर सकता है। इंस्टाग्राम पर साझा किए गए एक वीडियो में, एआई डिवीजन ने दिखाया कि एक रोबोट एक उपयोगकर्ता को व्हाइटबोर्ड पर मार्गदर्शन करने में सक्षम था जब उसने उससे एक जगह मांगी जहां वह चित्र बना सके।
गूगल डीपमाइंड ने एक पोस्ट में कहा, “1.5 प्रो की 1 मिलियन टोकन संदर्भ लंबाई से संचालित, हमारे रोबोट अंतरिक्ष के चारों ओर सफलतापूर्वक अपना रास्ता खोजने के लिए मानव निर्देशों, वीडियो टूर और सामान्य ज्ञान तर्क का उपयोग कर सकते हैं।”
arXiv (एक गैर-सहकर्मी-समीक्षित ऑनलाइन जर्नल) पर प्रकाशित एक अध्ययन में, डीपमाइंड ने सफलता के पीछे की तकनीक को समझाया। जेमिनी के अलावा, यह अपने स्वयं के रोबोटिक ट्रांसफार्मर 2 (आरटी-2) मॉडल का भी उपयोग कर रहा है। यह एक विज़न-लैंग्वेज-एक्शन (वीएलए) मॉडल है जो वेब और रोबोटिक्स डेटा दोनों से सीखता है। यह वास्तविक दुनिया के वातावरण को संसाधित करने और डेटासेट बनाने के लिए उस जानकारी का उपयोग करने के लिए कंप्यूटर विज़न का उपयोग करता है। प्रासंगिक आदेशों को तोड़ने और वांछित परिणाम उत्पन्न करने के लिए इस डेटासेट को बाद में जेनेरिक एआई द्वारा संसाधित किया जा सकता है।
वर्तमान में, Google DeepMind अपने रोबोटों को मल्टीमॉडल इंस्ट्रक्शन नेविगेशन (MIN) नामक व्यापक श्रेणी में प्रशिक्षित करने के लिए इस आर्किटेक्चर का उपयोग कर रहा है, जिसमें पर्यावरण अन्वेषण और निर्देश-निर्देशित नेविगेशन शामिल है। यदि प्रभाग द्वारा साझा किया गया प्रदर्शन वैध है, तो यह तकनीक रोबोटिक्स को और आगे बढ़ा सकती है।