Mistral Announces Pixtral 12B Multimodal AI Model With ‘Computer Vision’ Feature
मिस्ट्रल ने बुधवार को अपना पहला मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल पिक्सट्रल 12बी जारी किया। एआई फर्म, जो अपने ओपन-सोर्स बड़े भाषा मॉडल (एलएलएम) के लिए जानी जाती है, ने उपयोगकर्ताओं को डाउनलोड करने और परीक्षण करने के लिए गिटहब और हगिंग फेस पर नवीनतम एआई मॉडल भी उपलब्ध कराया है। विशेष रूप से, मल्टीमॉडल होने के बावजूद, पिक्सट्रल केवल कंप्यूटर विज़न तकनीक का उपयोग करके छवियों को संसाधित कर सकता है और उनके बारे में प्रश्नों का उत्तर दे सकता है। इस कार्यक्षमता के लिए दो विशेष एनकोडर जोड़े गए हैं। यह स्टेबल डिफ्यूजन मॉडल या मिडजॉर्नी के जेनरेटिव एडवरसैरियल नेटवर्क (जीएएन) जैसी छवियां उत्पन्न नहीं कर सकता है।
मिस्ट्रल ने पिक्सट्रल 12बी जारी किया
न्यूनतम घोषणाओं के लिए प्रतिष्ठा प्राप्त करते हुए, मिस्ट्रल ऑन एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) के आधिकारिक खाते ने अपने चुंबक लिंक को साझा करके एक पोस्ट में एआई मॉडल जारी किया। Pixtral 12B का कुल फ़ाइल आकार 24GB है, और मॉडल को चलाने के लिए इसे NPU-सक्षम PC या शक्तिशाली GPU वाले PC की आवश्यकता होगी।
Pixtral 12B 12 बिलियन पैरामीटर्स के साथ आता है और इसे कंपनी के मौजूदा Nemo 12B AI मॉडल का उपयोग करके बनाया गया है। मिस्ट्रल हाइलाइट्स उपयोगकर्ताओं को विज़न एडॉप्टर के रूप में गॉसियन एरर लीनियर यूनिट (GeLU) और विज़न एनकोडर के रूप में 2D रोटरी पोज़िशन एंबेडिंग (RoPE) की भी आवश्यकता होगी।
विशेष रूप से, उपयोगकर्ता Pixtral 12B पर छवि फ़ाइलें या URL अपलोड कर सकते हैं और यह छवि के बारे में प्रश्नों का उत्तर देने में सक्षम होना चाहिए जैसे कि वस्तुओं की पहचान करना, वस्तुओं की संख्या की गणना करना और अतिरिक्त जानकारी साझा करना। चूंकि यह निमो पर बनाया गया है, इसलिए यह मॉडल सभी सामान्य टेक्स्ट-आधारित कार्यों को भी पूरा करने में सक्षम होगा।
एक Reddit उपयोगकर्ता ने Pixtral 12B के बेंचमार्किंग स्कोर के बारे में एक छवि पोस्ट की, और ऐसा प्रतीत होता है कि LLM चार्टQA बेंच पर मल्टीमॉडल क्षमताओं में क्लाउड -3 हाइकू और Phi-3 विज़न से बेहतर प्रदर्शन करता है। यह मल्टीमॉडल ज्ञान और तर्क के लिए मैसिव मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग (एमएमएलयू) बेंच पर दोनों प्रतिद्वंद्वी एआई मॉडल से बेहतर प्रदर्शन करता है।
कंपनी के प्रवक्ता का हवाला देते हुए टेकक्रंच की रिपोर्ट में कहा गया है कि मिस्ट्रल एआई मॉडल को फाइन-ट्यून किया जा सकता है और अपाचे 2.0 लाइसेंस के तहत इस्तेमाल किया जा सकता है। इसका मतलब है कि मॉडल के आउटपुट का उपयोग बिना किसी प्रतिबंध के व्यक्तिगत या व्यावसायिक उपयोग के लिए किया जा सकता है। इसके अतिरिक्त, मिस्ट्रल में डेवलपर रिलेशंस की प्रमुख सोफिया यांग ने एक पोस्ट में स्पष्ट किया कि पिक्सट्रल 12बी जल्द ही ले चैट और ले प्लेटफॉर्म पर उपलब्ध होगा।
अभी के लिए, उपयोगकर्ता कंपनी द्वारा प्रदान किए गए चुंबक लिंक का उपयोग करके सीधे एआई मॉडल डाउनलोड कर सकते हैं। वैकल्पिक रूप से, मॉडल वेट को हगिंग फेस और गिटहब लिस्टिंग पर भी होस्ट किया गया है।