November 7, 2024
A.I

Google I/O 2024: DeepMind Showcases Real-Time Computer Vision-Based AI Interaction With Project Astra

  • August 18, 2024
  • 1 min read
Google I/O 2024: DeepMind Showcases Real-Time Computer Vision-Based AI Interaction With Project Astra

Google I/O 2024 के मुख्य सत्र में कंपनी को आर्टिफिशियल इंटेलिजेंस (AI) मॉडल और टूल की अपनी प्रभावशाली लाइनअप को प्रदर्शित करने का मौका मिला, जिस पर वह कुछ समय से काम कर रही है। पेश की गई ज़्यादातर सुविधाएँ आने वाले महीनों में सार्वजनिक पूर्वावलोकन के लिए अपना रास्ता बना लेंगी। हालाँकि, इवेंट में पूर्वावलोकन की गई सबसे दिलचस्प तकनीक कुछ समय के लिए यहाँ नहीं होगी। Google DeepMind द्वारा विकसित, इस नए AI सहायक को प्रोजेक्ट एस्ट्रा कहा गया और इसने वास्तविक समय, कंप्यूटर विज़न-आधारित AI इंटरैक्शन को प्रदर्शित किया।

प्रोजेक्ट एस्ट्रा एक एआई मॉडल है जो मौजूदा चैटबॉट के लिए बेहद उन्नत कार्य कर सकता है। Google एक ऐसी प्रणाली का अनुसरण करता है जहाँ वह अपने उत्पादन-तैयार मॉडल को प्रशिक्षित करने के लिए अपने सबसे बड़े और सबसे शक्तिशाली AI मॉडल का उपयोग करता है। Google DeepMind के सह-संस्थापक और CEO डेमिस हसबिस ने वर्तमान में प्रशिक्षण में चल रहे AI मॉडल के एक ऐसे उदाहरण को उजागर करते हुए प्रोजेक्ट एस्ट्रा का प्रदर्शन किया। इसका परिचय देते हुए उन्होंने कहा, “आज, हमारे पास AI सहायकों के भविष्य के बारे में साझा करने के लिए कुछ रोमांचक नई प्रगति है जिसे हम प्रोजेक्ट एस्ट्रा कह रहे हैं। लंबे समय से, हम एक सार्वभौमिक AI एजेंट बनाना चाहते थे जो रोज़मर्रा की ज़िंदगी में वास्तव में मददगार हो सके।”

हसबिस ने कंपनी द्वारा ऐसे AI एजेंटों के लिए निर्धारित की गई आवश्यकताओं का एक सेट भी सूचीबद्ध किया। उन्हें जटिल और गतिशील वास्तविक दुनिया के वातावरण को समझने और उस पर प्रतिक्रिया करने की आवश्यकता है, और उन्हें संदर्भ विकसित करने और कार्रवाई करने के लिए जो कुछ भी वे देखते हैं उसे याद रखने की आवश्यकता है। इसके अलावा, इसे सिखाने योग्य और व्यक्तिगत भी होना चाहिए ताकि यह नए कौशल सीख सके और बिना देरी के बातचीत कर सके।

उस विवरण के साथ, डीपमाइंड के सीईओ ने एक डेमो वीडियो दिखाया जिसमें एक उपयोगकर्ता को अपने कैमरे के ऐप को खोले हुए स्मार्टफोन को पकड़े हुए देखा जा सकता है। उपयोगकर्ता एक एआई से बात करता है और एआई तुरंत प्रतिक्रिया देता है, विभिन्न दृष्टि-आधारित प्रश्नों का उत्तर देता है। एआई संदर्भ के लिए दृश्य जानकारी का उपयोग करने और जनरेटिव क्षमताओं की आवश्यकता वाले संबंधित प्रश्नों का उत्तर देने में भी सक्षम था। उदाहरण के लिए, उपयोगकर्ता ने एआई को कुछ क्रेयॉन दिखाए और एआई से अनुप्रास के साथ इसका वर्णन करने के लिए कहा। बिना किसी देरी के, चैटबॉट कहता है, “रचनात्मक क्रेयॉन खुशी से रंगते हैं। वे निश्चित रूप से रंगीन रचनाएँ बनाते हैं।”

लेकिन यह सब नहीं था। वीडियो में आगे, उपयोगकर्ता खिड़की की ओर इशारा करता है, जहाँ से कुछ इमारतें और सड़कें दिखाई देती हैं। पड़ोस के बारे में पूछे जाने पर, AI तुरंत सही उत्तर देता है। यह AI मॉडल की कंप्यूटर विज़न प्रोसेसिंग की क्षमता और इसे प्रशिक्षित करने के लिए आवश्यक विशाल विज़ुअल डेटासेट को दर्शाता है। लेकिन शायद सबसे दिलचस्प प्रदर्शन तब हुआ जब AI से उपयोगकर्ता के चश्मे के बारे में पूछा गया। वे कुछ सेकंड के लिए स्क्रीन पर दिखाई दिए और यह पहले ही स्क्रीन से हट चुका था। फिर भी, AI अपनी स्थिति को याद रख सकता है और उपयोगकर्ता को उस तक पहुँचा सकता है।

प्रोजेक्ट एस्ट्रा सार्वजनिक या निजी पूर्वावलोकन में उपलब्ध नहीं है। Google अभी भी मॉडल पर काम कर रहा है, और उसे AI सुविधा के लिए उपयोग के मामलों का पता लगाना है और यह तय करना है कि इसे उपयोगकर्ताओं के लिए कैसे उपलब्ध कराया जाए। यह प्रदर्शन AI द्वारा अब तक का सबसे हास्यास्पद कारनामा होता, लेकिन एक दिन पहले OpenAI के स्प्रिंग अपडेट इवेंट ने इसकी कुछ चमक छीन ली। अपने इवेंट के दौरान, OpenAI ने GPT-4o का अनावरण किया, जिसमें समान क्षमताएँ और भावनात्मक आवाज़ें दिखाई गईं, जिसने AI को और अधिक मानवीय बना दिया।

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *