A.I

Google DeepMind Is Integrating Gemini 1.5 Pro in Robots That Can Navigate Real-World Environments

Biplab Das August 18, 2024

0 28 2 minutes read

गूगल डीपमाइंड ने गुरुवार को रोबोटिक्स और विज़न लैंग्वेज मॉडल (वीएलएम) के क्षेत्र में की गई नई प्रगति को साझा किया। इस तकनीकी दिग्गज का आर्टिफिशियल इंटेलिजेंस (एआई) अनुसंधान प्रभाग रोबोट में नई क्षमताओं को विकसित करने के लिए उन्नत विज़न मॉडल के साथ काम कर रहा है। एक नए अध्ययन में, डीपमाइंड ने इस बात पर प्रकाश डाला कि जेमिनी 1.5 प्रो और इसकी लंबी संदर्भ विंडो का उपयोग करके अब प्रभाग को अपने रोबोट के नेविगेशन और वास्तविक दुनिया की समझ में सफलता हासिल करने में सक्षम बनाया है। इस साल की शुरुआत में, एनवीडिया ने भी नई एआई तकनीक का अनावरण किया जो ह्यूमनॉइड रोबोट में उन्नत क्षमताओं को शक्ति प्रदान करती है।

गूगल डीपमाइंड रोबोट को बेहतर बनाने के लिए जेमिनी एआई का उपयोग कर रहा है

एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, गूगल डीपमाइंड ने खुलासा किया कि वह जेमिनी 1.5 प्रो के 2 मिलियन टोकन संदर्भ विंडो का उपयोग करके अपने रोबोट को प्रशिक्षित कर रहा है। संदर्भ विंडो को एआई मॉडल के लिए दृश्यमान ज्ञान की खिड़की के रूप में समझा जा सकता है, जिसका उपयोग करके यह पूछे गए विषय के आसपास स्पर्शरेखा जानकारी को संसाधित करता है।

उदाहरण के लिए, यदि कोई उपयोगकर्ता AI मॉडल से “सबसे लोकप्रिय आइसक्रीम फ्लेवर” के बारे में पूछता है, तो AI मॉडल उस प्रश्न की जानकारी प्राप्त करने के लिए कीवर्ड आइसक्रीम और फ्लेवर की जाँच करेगा। यदि यह सूचना विंडो बहुत छोटी है, तो AI केवल विभिन्न आइसक्रीम फ्लेवर के नामों के साथ ही जवाब दे पाएगा। हालाँकि, यदि यह बड़ी है, तो AI प्रत्येक आइसक्रीम फ्लेवर के बारे में लेखों की संख्या भी देख पाएगा ताकि पता लगाया जा सके कि किसका सबसे अधिक उल्लेख किया गया है और “लोकप्रियता कारक” का अनुमान लगाया जा सके।

डीपमाइंड अपने रोबोट को वास्तविक दुनिया के वातावरण में प्रशिक्षित करने के लिए इस लंबी संदर्भ विंडो का लाभ उठा रहा है। विभाग का लक्ष्य यह देखना है कि क्या रोबोट किसी वातावरण के विवरण को याद रख सकता है और जब संदर्भगत या अस्पष्ट शब्दों में पर्यावरण के बारे में पूछा जाता है तो वह उपयोगकर्ताओं की सहायता कर सकता है। इंस्टाग्राम पर साझा किए गए एक वीडियो में, एआई विभाग ने दिखाया कि एक रोबोट उपयोगकर्ता को व्हाइटबोर्ड पर मार्गदर्शन करने में सक्षम था जब उसने उससे एक ऐसी जगह के बारे में पूछा जहां वह चित्र बना सके।

गूगल डीपमाइंड ने एक पोस्ट में कहा, “1.5 प्रो की 1 मिलियन टोकन संदर्भ लंबाई के साथ संचालित, हमारे रोबोट मानव निर्देशों, वीडियो टूर और सामान्य ज्ञान तर्क का उपयोग करके किसी स्थान पर सफलतापूर्वक अपना रास्ता ढूंढ सकते हैं।”

arXiv (एक गैर-सहकर्मी-समीक्षित ऑनलाइन जर्नल) पर प्रकाशित एक अध्ययन में, डीपमाइंड ने इस सफलता के पीछे की तकनीक के बारे में बताया। जेमिनी के अलावा, यह अपने स्वयं के रोबोटिक ट्रांसफॉर्मर 2 (RT-2) मॉडल का भी उपयोग कर रहा है। यह एक विज़न-लैंग्वेज-एक्शन (VLA) मॉडल है जो वेब और रोबोटिक्स डेटा दोनों से सीखता है। यह वास्तविक दुनिया के वातावरण को संसाधित करने और डेटासेट बनाने के लिए उस जानकारी का उपयोग करने के लिए कंप्यूटर विज़न का उपयोग करता है। इस डेटासेट को बाद में जनरेटिव AI द्वारा प्रासंगिक आदेशों को तोड़ने और वांछित परिणाम उत्पन्न करने के लिए संसाधित किया जा सकता है।

वर्तमान में, Google DeepMind इस आर्किटेक्चर का उपयोग अपने रोबोट को मल्टीमॉडल इंस्ट्रक्शन नेविगेशन (MIN) नामक एक व्यापक श्रेणी पर प्रशिक्षित करने के लिए कर रहा है, जिसमें पर्यावरण अन्वेषण और निर्देश-निर्देशित नेविगेशन शामिल है। यदि विभाग द्वारा साझा किया गया प्रदर्शन वैध है, तो यह तकनीक रोबोटिक्स को और आगे बढ़ा सकती है।

Source link

Post Views: 46