November 7, 2024
A.I

Google Unveils Gemini 1.5, Meta Introduces Predictive Visual Machine Learning Model V-JEPA

  • August 19, 2024
  • 1 min read
Google Unveils Gemini 1.5, Meta Introduces Predictive Visual Machine Learning Model V-JEPA

गूगल और मेटा ने गुरुवार को आर्टिफिशियल इंटेलिजेंस (AI) से जुड़ी उल्लेखनीय घोषणाएं कीं, जिसमें महत्वपूर्ण प्रगति वाले नए मॉडल पेश किए गए। सर्च दिग्गज ने जेमिनी 1.5 का अनावरण किया, जो एक अपडेटेड AI मॉडल है जो विभिन्न तौर-तरीकों में लंबे संदर्भ की समझ के साथ आता है। इस बीच, मेटा ने अपने वीडियो जॉइंट एम्बेडिंग प्रेडिक्टिव आर्किटेक्चर (V-JEPA) मॉडल को जारी करने की घोषणा की, जो विज़ुअल मीडिया के माध्यम से उन्नत मशीन लर्निंग (ML) के लिए एक गैर-जनरेटिव शिक्षण पद्धति है। दोनों उत्पाद AI क्षमताओं की खोज के नए तरीके पेश करते हैं। उल्लेखनीय रूप से, OpenAI ने गुरुवार को अपना पहला टेक्स्ट-टू-वीडियो जेनरेशन मॉडल सोरा भी पेश किया।

गूगल जेमिनी 1.5 मॉडल विवरण

Google DeepMind के सीईओ डेमिस हसबिस ने एक ब्लॉग पोस्ट के ज़रिए Gemini 1.5 के रिलीज़ की घोषणा की। नया मॉडल ट्रांसफ़ॉर्मर और मिक्सचर ऑफ़ एक्सपर्ट्स (MoE) आर्किटेक्चर पर बनाया गया है। हालाँकि इसके अलग-अलग वर्शन होने की उम्मीद है, लेकिन अभी शुरुआती टेस्टिंग के लिए सिर्फ़ Gemini 1.5 Pro मॉडल ही रिलीज़ किया गया है। हसबिस ने कहा कि मिड-साइज़ मल्टीमॉडल मॉडल Gemini 1.0 Ultra के समान स्तर पर काम कर सकता है जो कंपनी का सबसे बड़ा जनरेटिव मॉडल है और Google One AI प्रीमियम प्लान के साथ Gemini एडवांस्ड सब्सक्रिप्शन के रूप में उपलब्ध है।

जेमिनी 1.5 में सबसे बड़ा सुधार इसकी लंबी-संदर्भ जानकारी को संसाधित करने की क्षमता है। मानक प्रो संस्करण 1,28,000 टोकन संदर्भ विंडो के साथ आता है। इसकी तुलना में, जेमिनी 1.0 में 32,000 टोकन की संदर्भ विंडो थी। टोकन को शब्दों, छवियों, वीडियो, ऑडियो या कोड के संपूर्ण भागों या उपखंडों के रूप में समझा जा सकता है, जो एक आधार मॉडल द्वारा सूचना को संसाधित करने के लिए बिल्डिंग ब्लॉक के रूप में कार्य करते हैं। हसबिस ने बताया, “मॉडल की संदर्भ विंडो जितनी बड़ी होगी, वह किसी दिए गए प्रॉम्प्ट में उतनी ही अधिक जानकारी ले सकता है और संसाधित कर सकता है – जिससे उसका आउटपुट अधिक सुसंगत, प्रासंगिक और उपयोगी बन जाता है।”

मानक प्रो संस्करण के साथ-साथ, Google 1 मिलियन टोकन तक की संदर्भ विंडो के साथ एक विशेष मॉडल भी जारी कर रहा है। इसे डेवलपर्स के एक सीमित समूह और इसके एंटरप्राइज़ क्लाइंट को एक निजी पूर्वावलोकन में पेश किया जा रहा है। हालाँकि इसके लिए कोई समर्पित प्लेटफ़ॉर्म नहीं है, लेकिन इसे Google के AI स्टूडियो, जनरेटिव AI मॉडल और वर्टेक्स AI के परीक्षण के लिए क्लाउड कंसोल टूल के माध्यम से आज़माया जा सकता है। Google का कहना है कि यह संस्करण एक घंटे के वीडियो, 11 घंटे के ऑडियो, 30,000 से अधिक लाइनों के कोडबेस या एक बार में 7,00,000 से अधिक शब्दों को प्रोसेस कर सकता है।

में एक डाक एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर, मेटा ने सार्वजनिक रूप से वी-जेईपीए जारी किया। यह एक जनरेटिव एआई मॉडल नहीं है, बल्कि एक शिक्षण पद्धति है जो एमएल सिस्टम को वीडियो देखकर भौतिक दुनिया को समझने और मॉडल बनाने में सक्षम बनाती है। कंपनी ने इसे एडवांस्ड मशीन इंटेलिजेंस (AMI) की दिशा में एक महत्वपूर्ण कदम बताया, जो तीन ‘एआई के गॉडफादर’ में से एक, यान लेकुन का विजन है।

संक्षेप में, यह एक पूर्वानुमानित विश्लेषण मॉडल है, जो पूरी तरह से दृश्य मीडिया से सीखता है। यह न केवल समझ सकता है कि वीडियो में क्या चल रहा है, बल्कि यह भी भविष्यवाणी कर सकता है कि आगे क्या होने वाला है। इसे प्रशिक्षित करने के लिए, कंपनी ने एक नई मास्किंग तकनीक का उपयोग करने का दावा किया है, जहाँ वीडियो के कुछ हिस्सों को समय और स्थान दोनों में मास्क किया गया था। इसका मतलब है कि वीडियो में कुछ फ़्रेम पूरी तरह से हटा दिए गए थे, जबकि कुछ अन्य फ़्रेमों में काले रंग के टुकड़े थे, जिसने मॉडल को वर्तमान फ़्रेम के साथ-साथ अगले फ़्रेम की भी भविष्यवाणी करने के लिए मजबूर किया। कंपनी के अनुसार, मॉडल दोनों काम कुशलता से करने में सक्षम था। विशेष रूप से, मॉडल 10 सेकंड तक की लंबाई के वीडियो की भविष्यवाणी और विश्लेषण कर सकता है।

मेटा ने एक ब्लॉग पोस्ट में कहा, “उदाहरण के लिए, यदि मॉडल को किसी व्यक्ति द्वारा पेन नीचे रखने, पेन उठाने तथा पेन नीचे रखने का नाटक करने लेकिन वास्तव में ऐसा नहीं करने के बीच अंतर करने में सक्षम होना है, तो उच्च-स्तरीय क्रिया पहचान कार्य के लिए पिछले तरीकों की तुलना में वी-जेईपीए काफी अच्छा है।”

वर्तमान में, V-JEPA मॉडल केवल विज़ुअल डेटा का उपयोग करता है, जिसका अर्थ है कि वीडियो में कोई ऑडियो इनपुट नहीं होता है। मेटा अब ML मॉडल में वीडियो के साथ ऑडियो को शामिल करने की योजना बना रहा है। कंपनी का एक और लक्ष्य लंबे वीडियो में अपनी क्षमताओं को बेहतर बनाना है।


संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – विवरण के लिए हमारा नैतिकता वक्तव्य देखें।



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *