Google Teases Computer Vision, Conversational Capabilities of Gemini AI Ahead of Google I/O Event
गूगल ने सोमवार को अपने सोशल मीडिया प्लेटफॉर्म पर एक वीडियो शेयर किया, जिसमें आर्टिफिशियल इंटेलिजेंस (AI) से चलने वाले चैटबॉट जेमिनी की नई क्षमताओं को दिखाया गया है। यह वीडियो कंपनी के वार्षिक डेवलपर-केंद्रित Google I/O इवेंट से ठीक एक दिन पहले जारी किया गया था। ऐसा माना जा रहा है कि टेक दिग्गज AI के इर्द-गिर्द कई घोषणाएँ कर सकता है और नए फीचर्स और संभवतः नए AI मॉडल पेश कर सकता है। इसके अलावा, इवेंट के दौरान Android 15 और Wear OS 5 के मुख्य आकर्षण होने की संभावना है, जिसका अनावरण किया जा सकता है।
एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर पोस्ट किए गए एक छोटे से वीडियो में, Google के आधिकारिक अकाउंट ने अपने इन-हाउस AI चैटबॉट की नई क्षमताओं को छेड़ा। 50 सेकंड के लंबे वीडियो में इसके भाषण में उल्लेखनीय सुधार पर प्रकाश डाला गया, जिससे जेमिनी को अधिक भावनात्मक आवाज़ और मॉड्यूलेशन मिला जो इसे अधिक मानवीय रूप देता है। इसके अलावा, वीडियो में नई कंप्यूटर विज़न क्षमताओं पर भी प्रकाश डाला गया। AI स्क्रीन पर दृश्यों को उठा सकता है और उसका विश्लेषण कर सकता है।
जेमिनी स्मार्टफोन के कैमरे तक भी पहुंच सकता है, जो कि वर्तमान में उसके पास नहीं है। उपयोगकर्ता कैमरे को जगह-जगह घुमा रहा था और उसने AI से पूछा कि उसने क्या देखा। लगभग बिना किसी समय अंतराल के, चैटबॉट सेटिंग को एक मंच के रूप में वर्णित कर सकता था और संकेत मिलने पर, Google I/O लोगो को भी पहचान सकता था और उसके आस-पास की जानकारी साझा कर सकता था।
वीडियो में AI के बारे में कोई और जानकारी नहीं दी गई, बल्कि लोगों से और अधिक जानने के लिए इवेंट देखने को कहा गया। इवेंट के दौरान कुछ सवालों के जवाब मिल सकते हैं, जैसे कि क्या Google कंप्यूटर विज़न के लिए एक नए बड़े भाषा मॉडल (LLM) का उपयोग कर रहा है या यह Gemini 1.5 Pro का अपग्रेडेड वर्शन है। इसके अलावा, Google यह भी बता सकता है कि AI अपने कंप्यूटर विज़न के साथ और क्या कर सकता है। विशेष रूप से, ऐसी अफवाहें हैं कि टेक दिग्गज Gems को पेश कर सकता है, जिन्हें चैटबॉट एजेंट माना जाता है जिन्हें OpenAI के GPTs के समान विशेष कार्यों के लिए डिज़ाइन किया जा सकता है।
जबकि Google के इवेंट में Gemini में नए फीचर्स पेश किए जाने की उम्मीद है, OpenAI ने सोमवार को अपना स्प्रिंग अपडेट इवेंट आयोजित किया और अपने नवीनतम GPT-4o AI मॉडल का अनावरण किया, जिसने ChatGPT में कुछ फीचर्स जोड़े, जो Google द्वारा साझा किए गए वीडियो के समान है। नया AI मॉडल इसे संवादात्मक भाषण, कंप्यूटर विज़न, रीयल-टाइम भाषा अनुवाद और बहुत कुछ करने की अनुमति देता है।