November 24, 2024
A.I

Apple Researchers Working on MM1, a Family of Multimodal AI Model With Up to 30 Billion Parameters

  • August 19, 2024
  • 1 min read
Apple Researchers Working on MM1, a Family of Multimodal AI Model With Up to 30 Billion Parameters

Apple के शोधकर्ताओं ने मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस (AI) लार्ज लैंग्वेज मॉडल (LLM) बनाने पर अपने काम को प्री-प्रिंट पेपर में साझा किया है। 14 मार्च को एक ऑनलाइन पोर्टल पर प्रकाशित, पेपर इस बात पर प्रकाश डालता है कि यह मल्टीमॉडलिटी की उन्नत क्षमताओं को कैसे प्राप्त करने में सक्षम था और केवल टेक्स्ट डेटा के साथ-साथ छवियों पर भी आधार मॉडल को प्रशिक्षित कर सकता था। क्यूपर्टिनो-आधारित टेक दिग्गज के लिए AI में नई प्रगति कंपनी के अर्निंग कॉल के दौरान सीईओ टिम कुक की टिप्पणियों के बाद आई है, जहां उन्होंने कहा था कि इस साल के अंत में AI सुविधाएँ आ सकती हैं।

शोध पत्र का प्री-प्रिंट संस्करण arXiv पर प्रकाशित किया गया है, जो विद्वानों के शोध पत्रों का एक ओपन-एक्सेस ऑनलाइन संग्रह है। हालाँकि, यहाँ पोस्ट किए गए शोध पत्रों की सहकर्मी समीक्षा नहीं की गई है। हालाँकि, शोध पत्र में Apple का उल्लेख नहीं है, लेकिन उल्लेखित अधिकांश शोधकर्ता कंपनी के मशीन लर्निंग (ML) प्रभाग से संबद्ध हैं, जिससे यह माना जाता है कि यह परियोजना भी iPhone निर्माता से संबद्ध है।

शोधकर्ताओं के अनुसार, वे MM1 पर काम कर रहे हैं, जो 30 बिलियन पैरामीटर तक के मल्टीमॉडल मॉडल का परिवार है। इसे “परफॉर्मेंट मल्टीमॉडल LLM (MLLM)” कहते हुए, पेपर के लेखकों ने इस बात पर प्रकाश डाला कि इमेज एनकोडर, विज़न लैंग्वेज कनेक्टर और अन्य आर्किटेक्चर घटकों और डेटा विकल्पों को AI मॉडल बनाने के लिए बनाया गया था जो टेक्स्ट और इमेज-आधारित इनपुट दोनों को समझने में सक्षम है।

एक उदाहरण देते हुए, पेपर में कहा गया है, “हम प्रदर्शित करते हैं कि बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग के लिए इमेज-कैप्शन, इंटरलीव्ड इमेज-टेक्स्ट और टेक्स्ट-ओनली डेटा के सावधानीपूर्वक मिश्रण का उपयोग करना अन्य प्रकाशित प्री-ट्रेनिंग परिणामों की तुलना में कई बेंचमार्क में अत्याधुनिक (एसओटीए) कुछ-शॉट परिणाम प्राप्त करने के लिए महत्वपूर्ण है।”

इसे समझने के लिए, AI मॉडल वर्तमान में प्री-ट्रेनिंग चरण में है, जिसका अर्थ है कि यह वांछित आउटपुट देने के लिए पर्याप्त रूप से प्रशिक्षित नहीं है। यह वह चरण है जब मॉडल के वर्कफ़्लो को डिज़ाइन करने और अंततः डेटा को कैसे संसाधित किया जाता है, इसके लिए एल्गोरिदम और AI आर्किटेक्चर का उपयोग किया जाता है। Apple शोधकर्ताओं की टीम इमेज एनकोडर और विज़न लैंग्वेज कनेक्टर का उपयोग करके मॉडल में कंप्यूटर विज़न जोड़ने में सक्षम थी। फिर, जब केवल छवियों, छवि और पाठ, और केवल पाठ डेटा सेट के मिश्रण के साथ परीक्षण किया गया, तो टीम ने पाया कि परिणाम उसी चरण में मौजूदा मॉडलों की तुलना में प्रतिस्पर्धी थे।

हालांकि यह सफलता महत्वपूर्ण है, लेकिन यह शोध पत्र यह सुनिश्चित करने के लिए पर्याप्त नहीं है कि Apple के ऑपरेटिंग सिस्टम में मल्टीमॉडल AI चैटबॉट जोड़ा जाएगा। इस स्तर पर, यह कहना भी मुश्किल है कि इनपुट लेते समय या आउटपुट देते समय AI मॉडल मल्टीमॉडल है या नहीं (चाहे वह AI इमेज जेनरेट कर सके या नहीं)। लेकिन अगर सहकर्मी समीक्षा के बाद परिणामों के सुसंगत होने की पुष्टि होती है, तो यह कहा जा सकता है कि टेक दिग्गज ने मूल जनरेटिव AI फाउंडेशन मॉडल बनाने की दिशा में एक और बड़ा कदम उठाया है।


संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – विवरण के लिए हमारा नैतिकता वक्तव्य देखें।

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *