Mistral Announces Pixtral 12B Multimodal AI Model With ‘Computer Vision’ Feature
मिस्ट्रल ने बुधवार को पिक्सट्रल 12बी नाम से अपना पहला मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल जारी किया। ओपन-सोर्स लार्ज लैंग्वेज मॉडल (एलएलएम) के लिए जानी जाने वाली एआई फर्म ने नवीनतम एआई मॉडल को गिटहब और हगिंग फेस पर भी उपलब्ध कराया है, ताकि उपयोगकर्ता इसे डाउनलोड करके देख सकें। उल्लेखनीय रूप से, मल्टीमॉडल होने के बावजूद, पिक्सट्रल केवल कंप्यूटर विज़न तकनीक का उपयोग करके छवियों को संसाधित कर सकता है और उनके बारे में प्रश्नों का उत्तर दे सकता है। इस कार्यक्षमता के लिए दो विशेष एनकोडर जोड़े गए हैं। यह स्टेबल डिफ्यूजन मॉडल या मिडजर्नी के जेनरेटिव एडवर्सरील नेटवर्क (जीएएन) जैसी छवियां उत्पन्न नहीं कर सकता है।
मिस्ट्रल ने पिक्सल 12बी जारी किया
न्यूनतम घोषणाओं के लिए प्रतिष्ठा प्राप्त करते हुए, मिस्ट्रल ऑन एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) के आधिकारिक खाते ने अपने मैग्नेट लिंक को साझा करके एक पोस्ट में एआई मॉडल जारी किया। पिक्सट्रल 12बी का कुल फ़ाइल आकार 24 जीबी है, और मॉडल को चलाने के लिए एनपीयू-सक्षम पीसी या शक्तिशाली जीपीयू वाले पीसी की आवश्यकता होगी।
पिक्सट्रल 12बी 12 बिलियन पैरामीटर के साथ आता है और इसे कंपनी के मौजूदा निमो 12बी एआई मॉडल का उपयोग करके बनाया गया है। मिस्ट्रल ने बताया कि उपयोगकर्ताओं को विज़न एडाप्टर के रूप में गॉसियन एरर लीनियर यूनिट (GeLU) और विज़न एनकोडर के रूप में 2D रोटरी पोजिशन एम्बेडिंग (RoPE) की भी आवश्यकता होगी।
विशेष रूप से, उपयोगकर्ता पिक्सट्रल 12बी पर छवि फ़ाइलें या यूआरएल अपलोड कर सकते हैं और यह छवि के बारे में प्रश्नों का उत्तर देने में सक्षम होना चाहिए जैसे कि वस्तुओं की पहचान करना, वस्तुओं की संख्या गिनना और अतिरिक्त जानकारी साझा करना। चूंकि यह निमो पर बनाया गया है, इसलिए मॉडल सभी सामान्य टेक्स्ट-आधारित कार्यों को पूरा करने में भी सक्षम होगा।
एक Reddit उपयोगकर्ता ने Pixtral 12B के बेंचमार्किंग स्कोर के बारे में एक छवि पोस्ट की, और ऐसा प्रतीत होता है कि LLM, ChartQA बेंच पर मल्टीमॉडल क्षमताओं में क्लाउड-3 हाइकू और फी-3 विजन से बेहतर प्रदर्शन करता है। यह मल्टीमॉडल ज्ञान और तर्क के लिए मैसिव मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग (MMLU) बेंच पर दोनों प्रतिद्वंद्वी AI मॉडल से भी बेहतर प्रदर्शन करता है।
कंपनी के प्रवक्ता का हवाला देते हुए, टेकक्रंच ने बताया कि मिस्ट्रल एआई मॉडल को बेहतर बनाया जा सकता है और अपाचे 2.0 लाइसेंस के तहत इस्तेमाल किया जा सकता है। इसका मतलब है कि मॉडल के आउटपुट को बिना किसी प्रतिबंध के व्यक्तिगत या व्यावसायिक उपयोग के लिए इस्तेमाल किया जा सकता है। इसके अलावा, मिस्ट्रल में डेवलपर रिलेशंस की प्रमुख सोफिया यांग ने एक पोस्ट में स्पष्ट किया कि पिक्सल 12बी जल्द ही ले चैट और ले प्लेटफॉर्म पर उपलब्ध होगा।
अभी के लिए, उपयोगकर्ता कंपनी द्वारा प्रदान किए गए मैग्नेट लिंक का उपयोग करके सीधे AI मॉडल डाउनलोड कर सकते हैं। वैकल्पिक रूप से, मॉडल वेट को हगिंग फेस और गिटहब लिस्टिंग पर भी होस्ट किया गया है।