Apple Researchers Working on MM1, a Family of Multimodal AI Model With Up to 30 Billion Parameters
Apple के शोधकर्ताओं ने मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस (AI) लार्ज लैंग्वेज मॉडल (LLM) बनाने पर अपने काम को प्री-प्रिंट पेपर में साझा किया है। 14 मार्च को एक ऑनलाइन पोर्टल पर प्रकाशित, पेपर इस बात पर प्रकाश डालता है कि यह मल्टीमॉडलिटी की उन्नत क्षमताओं को कैसे प्राप्त करने में सक्षम था और केवल टेक्स्ट डेटा के साथ-साथ छवियों पर भी आधार मॉडल को प्रशिक्षित कर सकता था। क्यूपर्टिनो-आधारित टेक दिग्गज के लिए AI में नई प्रगति कंपनी के अर्निंग कॉल के दौरान सीईओ टिम कुक की टिप्पणियों के बाद आई है, जहां उन्होंने कहा था कि इस साल के अंत में AI सुविधाएँ आ सकती हैं।
शोध पत्र का प्री-प्रिंट संस्करण arXiv पर प्रकाशित किया गया है, जो विद्वानों के शोध पत्रों का एक ओपन-एक्सेस ऑनलाइन संग्रह है। हालाँकि, यहाँ पोस्ट किए गए शोध पत्रों की सहकर्मी समीक्षा नहीं की गई है। हालाँकि, शोध पत्र में Apple का उल्लेख नहीं है, लेकिन उल्लेखित अधिकांश शोधकर्ता कंपनी के मशीन लर्निंग (ML) प्रभाग से संबद्ध हैं, जिससे यह माना जाता है कि यह परियोजना भी iPhone निर्माता से संबद्ध है।
शोधकर्ताओं के अनुसार, वे MM1 पर काम कर रहे हैं, जो 30 बिलियन पैरामीटर तक के मल्टीमॉडल मॉडल का परिवार है। इसे “परफॉर्मेंट मल्टीमॉडल LLM (MLLM)” कहते हुए, पेपर के लेखकों ने इस बात पर प्रकाश डाला कि इमेज एनकोडर, विज़न लैंग्वेज कनेक्टर और अन्य आर्किटेक्चर घटकों और डेटा विकल्पों को AI मॉडल बनाने के लिए बनाया गया था जो टेक्स्ट और इमेज-आधारित इनपुट दोनों को समझने में सक्षम है।
एक उदाहरण देते हुए, पेपर में कहा गया है, “हम प्रदर्शित करते हैं कि बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग के लिए इमेज-कैप्शन, इंटरलीव्ड इमेज-टेक्स्ट और टेक्स्ट-ओनली डेटा के सावधानीपूर्वक मिश्रण का उपयोग करना अन्य प्रकाशित प्री-ट्रेनिंग परिणामों की तुलना में कई बेंचमार्क में अत्याधुनिक (एसओटीए) कुछ-शॉट परिणाम प्राप्त करने के लिए महत्वपूर्ण है।”
इसे समझने के लिए, AI मॉडल वर्तमान में प्री-ट्रेनिंग चरण में है, जिसका अर्थ है कि यह वांछित आउटपुट देने के लिए पर्याप्त रूप से प्रशिक्षित नहीं है। यह वह चरण है जब मॉडल के वर्कफ़्लो को डिज़ाइन करने और अंततः डेटा को कैसे संसाधित किया जाता है, इसके लिए एल्गोरिदम और AI आर्किटेक्चर का उपयोग किया जाता है। Apple शोधकर्ताओं की टीम इमेज एनकोडर और विज़न लैंग्वेज कनेक्टर का उपयोग करके मॉडल में कंप्यूटर विज़न जोड़ने में सक्षम थी। फिर, जब केवल छवियों, छवि और पाठ, और केवल पाठ डेटा सेट के मिश्रण के साथ परीक्षण किया गया, तो टीम ने पाया कि परिणाम उसी चरण में मौजूदा मॉडलों की तुलना में प्रतिस्पर्धी थे।
हालांकि यह सफलता महत्वपूर्ण है, लेकिन यह शोध पत्र यह सुनिश्चित करने के लिए पर्याप्त नहीं है कि Apple के ऑपरेटिंग सिस्टम में मल्टीमॉडल AI चैटबॉट जोड़ा जाएगा। इस स्तर पर, यह कहना भी मुश्किल है कि इनपुट लेते समय या आउटपुट देते समय AI मॉडल मल्टीमॉडल है या नहीं (चाहे वह AI इमेज जेनरेट कर सके या नहीं)। लेकिन अगर सहकर्मी समीक्षा के बाद परिणामों के सुसंगत होने की पुष्टि होती है, तो यह कहा जा सकता है कि टेक दिग्गज ने मूल जनरेटिव AI फाउंडेशन मॉडल बनाने की दिशा में एक और बड़ा कदम उठाया है।