A.I

Apple Researchers Working on MM1, a Family of Multimodal AI Model With Up to 30 Billion Parameters

Biplab Das

August 19, 2024
1 min read

Apple Researchers Working on MM1, a Family of Multimodal AI Model With Up to 30 Billion Parameters

Apple के शोधकर्ताओं ने मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस (AI) लार्ज लैंग्वेज मॉडल (LLM) बनाने पर अपने काम को प्री-प्रिंट पेपर में साझा किया है। 14 मार्च को एक ऑनलाइन पोर्टल पर प्रकाशित, पेपर इस बात पर प्रकाश डालता है कि यह मल्टीमॉडलिटी की उन्नत क्षमताओं को कैसे प्राप्त करने में सक्षम था और केवल टेक्स्ट डेटा के साथ-साथ छवियों पर भी आधार मॉडल को प्रशिक्षित कर सकता था। क्यूपर्टिनो-आधारित टेक दिग्गज के लिए AI में नई प्रगति कंपनी के अर्निंग कॉल के दौरान सीईओ टिम कुक की टिप्पणियों के बाद आई है, जहां उन्होंने कहा था कि इस साल के अंत में AI सुविधाएँ आ सकती हैं।

शोध पत्र का प्री-प्रिंट संस्करण arXiv पर प्रकाशित किया गया है, जो विद्वानों के शोध पत्रों का एक ओपन-एक्सेस ऑनलाइन संग्रह है। हालाँकि, यहाँ पोस्ट किए गए शोध पत्रों की सहकर्मी समीक्षा नहीं की गई है। हालाँकि, शोध पत्र में Apple का उल्लेख नहीं है, लेकिन उल्लेखित अधिकांश शोधकर्ता कंपनी के मशीन लर्निंग (ML) प्रभाग से संबद्ध हैं, जिससे यह माना जाता है कि यह परियोजना भी iPhone निर्माता से संबद्ध है।

शोधकर्ताओं के अनुसार, वे MM1 पर काम कर रहे हैं, जो 30 बिलियन पैरामीटर तक के मल्टीमॉडल मॉडल का परिवार है। इसे “परफॉर्मेंट मल्टीमॉडल LLM (MLLM)” कहते हुए, पेपर के लेखकों ने इस बात पर प्रकाश डाला कि इमेज एनकोडर, विज़न लैंग्वेज कनेक्टर और अन्य आर्किटेक्चर घटकों और डेटा विकल्पों को AI मॉडल बनाने के लिए बनाया गया था जो टेक्स्ट और इमेज-आधारित इनपुट दोनों को समझने में सक्षम है।

एक उदाहरण देते हुए, पेपर में कहा गया है, “हम प्रदर्शित करते हैं कि बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग के लिए इमेज-कैप्शन, इंटरलीव्ड इमेज-टेक्स्ट और टेक्स्ट-ओनली डेटा के सावधानीपूर्वक मिश्रण का उपयोग करना अन्य प्रकाशित प्री-ट्रेनिंग परिणामों की तुलना में कई बेंचमार्क में अत्याधुनिक (एसओटीए) कुछ-शॉट परिणाम प्राप्त करने के लिए महत्वपूर्ण है।”

इसे समझने के लिए, AI मॉडल वर्तमान में प्री-ट्रेनिंग चरण में है, जिसका अर्थ है कि यह वांछित आउटपुट देने के लिए पर्याप्त रूप से प्रशिक्षित नहीं है। यह वह चरण है जब मॉडल के वर्कफ़्लो को डिज़ाइन करने और अंततः डेटा को कैसे संसाधित किया जाता है, इसके लिए एल्गोरिदम और AI आर्किटेक्चर का उपयोग किया जाता है। Apple शोधकर्ताओं की टीम इमेज एनकोडर और विज़न लैंग्वेज कनेक्टर का उपयोग करके मॉडल में कंप्यूटर विज़न जोड़ने में सक्षम थी। फिर, जब केवल छवियों, छवि और पाठ, और केवल पाठ डेटा सेट के मिश्रण के साथ परीक्षण किया गया, तो टीम ने पाया कि परिणाम उसी चरण में मौजूदा मॉडलों की तुलना में प्रतिस्पर्धी थे।

हालांकि यह सफलता महत्वपूर्ण है, लेकिन यह शोध पत्र यह सुनिश्चित करने के लिए पर्याप्त नहीं है कि Apple के ऑपरेटिंग सिस्टम में मल्टीमॉडल AI चैटबॉट जोड़ा जाएगा। इस स्तर पर, यह कहना भी मुश्किल है कि इनपुट लेते समय या आउटपुट देते समय AI मॉडल मल्टीमॉडल है या नहीं (चाहे वह AI इमेज जेनरेट कर सके या नहीं)। लेकिन अगर सहकर्मी समीक्षा के बाद परिणामों के सुसंगत होने की पुष्टि होती है, तो यह कहा जा सकता है कि टेक दिग्गज ने मूल जनरेटिव AI फाउंडेशन मॉडल बनाने की दिशा में एक और बड़ा कदम उठाया है।

संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – विवरण के लिए हमारा नैतिकता वक्तव्य देखें।

Source link

Post Views: 33

Apple Researchers Working on MM1, a Family of Multimodal AI Model With Up to 30 Billion Parameters

Biplab Das

Apple Reportedly in Talks With Google to Integrate Gemini for Advanced AI Features on iPhone

Elon Musk’s xAI Takes Its AI Chatbot Grok Open Source for Researchers and Developers

Leave a Reply Cancel reply

Live Results Search

Related Posts

Tags:

Apple Reportedly in Talks With Google to Integrate Gemini for Advanced AI Features on iPhone

Elon Musk’s xAI Takes Its AI Chatbot Grok Open Source for Researchers and Developers

Leave a Reply Cancel reply

Live Results Search

Related Posts

AI-पावर्ड हेल्थकेयर का उदय: कैसे प्रौद्योगिकी रोगी देखभाल में क्रांति ला रही है

Best artificial intelligence stocks

Sellers Rejoice: Amazon Unveils Link-Enabled AI Product Generation