Google I/O 2024: DeepMind Showcases Real-Time Computer Vision-Based AI Interaction With Project Astra
Google I/O 2024 के मुख्य सत्र में कंपनी को आर्टिफिशियल इंटेलिजेंस (AI) मॉडल और टूल की अपनी प्रभावशाली लाइनअप को प्रदर्शित करने का मौका मिला, जिस पर वह कुछ समय से काम कर रही है। पेश की गई ज़्यादातर सुविधाएँ आने वाले महीनों में सार्वजनिक पूर्वावलोकन के लिए अपना रास्ता बना लेंगी। हालाँकि, इवेंट में पूर्वावलोकन की गई सबसे दिलचस्प तकनीक कुछ समय के लिए यहाँ नहीं होगी। Google DeepMind द्वारा विकसित, इस नए AI सहायक को प्रोजेक्ट एस्ट्रा कहा गया और इसने वास्तविक समय, कंप्यूटर विज़न-आधारित AI इंटरैक्शन को प्रदर्शित किया।
प्रोजेक्ट एस्ट्रा एक एआई मॉडल है जो मौजूदा चैटबॉट के लिए बेहद उन्नत कार्य कर सकता है। Google एक ऐसी प्रणाली का अनुसरण करता है जहाँ वह अपने उत्पादन-तैयार मॉडल को प्रशिक्षित करने के लिए अपने सबसे बड़े और सबसे शक्तिशाली AI मॉडल का उपयोग करता है। Google DeepMind के सह-संस्थापक और CEO डेमिस हसबिस ने वर्तमान में प्रशिक्षण में चल रहे AI मॉडल के एक ऐसे उदाहरण को उजागर करते हुए प्रोजेक्ट एस्ट्रा का प्रदर्शन किया। इसका परिचय देते हुए उन्होंने कहा, “आज, हमारे पास AI सहायकों के भविष्य के बारे में साझा करने के लिए कुछ रोमांचक नई प्रगति है जिसे हम प्रोजेक्ट एस्ट्रा कह रहे हैं। लंबे समय से, हम एक सार्वभौमिक AI एजेंट बनाना चाहते थे जो रोज़मर्रा की ज़िंदगी में वास्तव में मददगार हो सके।”
हसबिस ने कंपनी द्वारा ऐसे AI एजेंटों के लिए निर्धारित की गई आवश्यकताओं का एक सेट भी सूचीबद्ध किया। उन्हें जटिल और गतिशील वास्तविक दुनिया के वातावरण को समझने और उस पर प्रतिक्रिया करने की आवश्यकता है, और उन्हें संदर्भ विकसित करने और कार्रवाई करने के लिए जो कुछ भी वे देखते हैं उसे याद रखने की आवश्यकता है। इसके अलावा, इसे सिखाने योग्य और व्यक्तिगत भी होना चाहिए ताकि यह नए कौशल सीख सके और बिना देरी के बातचीत कर सके।
उस विवरण के साथ, डीपमाइंड के सीईओ ने एक डेमो वीडियो दिखाया जिसमें एक उपयोगकर्ता को अपने कैमरे के ऐप को खोले हुए स्मार्टफोन को पकड़े हुए देखा जा सकता है। उपयोगकर्ता एक एआई से बात करता है और एआई तुरंत प्रतिक्रिया देता है, विभिन्न दृष्टि-आधारित प्रश्नों का उत्तर देता है। एआई संदर्भ के लिए दृश्य जानकारी का उपयोग करने और जनरेटिव क्षमताओं की आवश्यकता वाले संबंधित प्रश्नों का उत्तर देने में भी सक्षम था। उदाहरण के लिए, उपयोगकर्ता ने एआई को कुछ क्रेयॉन दिखाए और एआई से अनुप्रास के साथ इसका वर्णन करने के लिए कहा। बिना किसी देरी के, चैटबॉट कहता है, “रचनात्मक क्रेयॉन खुशी से रंगते हैं। वे निश्चित रूप से रंगीन रचनाएँ बनाते हैं।”
लेकिन यह सब नहीं था। वीडियो में आगे, उपयोगकर्ता खिड़की की ओर इशारा करता है, जहाँ से कुछ इमारतें और सड़कें दिखाई देती हैं। पड़ोस के बारे में पूछे जाने पर, AI तुरंत सही उत्तर देता है। यह AI मॉडल की कंप्यूटर विज़न प्रोसेसिंग की क्षमता और इसे प्रशिक्षित करने के लिए आवश्यक विशाल विज़ुअल डेटासेट को दर्शाता है। लेकिन शायद सबसे दिलचस्प प्रदर्शन तब हुआ जब AI से उपयोगकर्ता के चश्मे के बारे में पूछा गया। वे कुछ सेकंड के लिए स्क्रीन पर दिखाई दिए और यह पहले ही स्क्रीन से हट चुका था। फिर भी, AI अपनी स्थिति को याद रख सकता है और उपयोगकर्ता को उस तक पहुँचा सकता है।
प्रोजेक्ट एस्ट्रा सार्वजनिक या निजी पूर्वावलोकन में उपलब्ध नहीं है। Google अभी भी मॉडल पर काम कर रहा है, और उसे AI सुविधा के लिए उपयोग के मामलों का पता लगाना है और यह तय करना है कि इसे उपयोगकर्ताओं के लिए कैसे उपलब्ध कराया जाए। यह प्रदर्शन AI द्वारा अब तक का सबसे हास्यास्पद कारनामा होता, लेकिन एक दिन पहले OpenAI के स्प्रिंग अपडेट इवेंट ने इसकी कुछ चमक छीन ली। अपने इवेंट के दौरान, OpenAI ने GPT-4o का अनावरण किया, जिसमें समान क्षमताएँ और भावनात्मक आवाज़ें दिखाई गईं, जिसने AI को और अधिक मानवीय बना दिया।