A.I

Hugging Face Introduces Open-Source SmolVLM Vision Language Model Focused on Efficiency

कृत्रिम बुद्धिमत्ता (एआई) और मशीन लर्निंग (एमएल) प्लेटफॉर्म, हगिंग फेस ने पिछले सप्ताह एक नया दृष्टि-केंद्रित एआई मॉडल पेश किया। डब किया गया SmolVLM (जहाँ VLM विज़न लैंग्वेज मॉडल का संक्षिप्त रूप है), यह एक कॉम्पैक्ट आकार का मॉडल है जो दक्षता पर केंद्रित है। कंपनी का दावा है कि अपने छोटे आकार और उच्च दक्षता के कारण, यह उन उद्यमों और एआई उत्साही लोगों के लिए उपयोगी हो सकता है जो इसके बुनियादी ढांचे में बहुत अधिक निवेश किए बिना एआई क्षमताएं चाहते हैं। हगिंग फेस ने व्यक्तिगत और व्यावसायिक उपयोग दोनों के लिए Apache 2.0 लाइसेंस के तहत SmolVLM विज़न मॉडल को भी ओपन-सोर्स किया है।

गले लगाने वाला चेहरा SmolVLM का परिचय देता है

एक ब्लॉग पोस्ट में, हगिंग फेस ने नए ओपन-सोर्स विज़न मॉडल के बारे में विस्तार से बताया। कंपनी ने मेमोरी के कुशल उपयोग और तेज़ अनुमान के लिए एआई मॉडल को “अत्याधुनिक” कहा। छोटे विज़न मॉडल की उपयोगिता पर प्रकाश डालते हुए, कंपनी ने एआई कंपनियों द्वारा मॉडलों को अधिक कुशल और लागत प्रभावी बनाने के लिए उन्हें छोटा करने की हालिया प्रवृत्ति पर ध्यान दिया।

हगिंग फेस एसवीएम इकोसिस्टम स्मॉल विजन मॉडल इकोसिस्टम

लघु दृष्टि मॉडल पारिस्थितिकी तंत्र
फोटो साभार: गले मिलता हुआ चेहरा

SmolVLM परिवार में तीन AI मॉडल वेरिएंट हैं, जिनमें से प्रत्येक में दो बिलियन पैरामीटर हैं। पहला SmolVLM-Base है, जो मानक मॉडल है। इसके अलावा, एसएमओएलवीएलएम-सिंथेटिक सिंथेटिक डेटा (एआई या कंप्यूटर द्वारा उत्पन्न डेटा) पर प्रशिक्षित फाइन-ट्यून वेरिएंट है, और एसएमओएलवीएलएम इंस्ट्रक्ट इंस्ट्रक्शन वेरिएंट है जिसका उपयोग एंड-यूज़र-केंद्रित एप्लिकेशन बनाने के लिए किया जा सकता है।

तकनीकी विवरण की बात करें तो, विज़न मॉडल केवल 5.02GB GPU RAM के साथ काम कर सकता है, जो कि Qwen2-VL 2B की 13.7GB GPU RAM और IninterVL2 2B की 10.52GB GPU RAM की आवश्यकता से काफी कम है। इसके चलते हगिंग फेस का दावा है कि एआई मॉडल लैपटॉप पर ऑन-डिवाइस चल सकता है।

SmolVLM किसी भी क्रम में पाठ और छवियों के अनुक्रम को स्वीकार कर सकता है और उपयोगकर्ता प्रश्नों के उत्तर उत्पन्न करने के लिए उनका विश्लेषण कर सकता है। यह 384 x 384p रिज़ॉल्यूशन छवि पैच को 81 विज़ुअल डेटा टोकन में एन्कोड करता है। कंपनी ने दावा किया कि यह एआई को परीक्षण संकेतों और एक छवि को 1,200 टोकन में एन्कोड करने में सक्षम बनाता है, जबकि क्वेन2-वीएल के लिए आवश्यक 16,000 टोकन के विपरीत।

इन विशिष्टताओं के साथ, हगिंग फेस इस बात पर प्रकाश डालता है कि SmolVLM का उपयोग छोटे उद्यमों और AI उत्साही लोगों द्वारा आसानी से किया जा सकता है और बिना किसी बड़े अपग्रेड की आवश्यकता वाले तकनीकी स्टैक के स्थानीयकृत सिस्टम में तैनात किया जा सकता है। उद्यम महत्वपूर्ण लागत खर्च किए बिना टेक्स्ट और छवि-आधारित अनुमानों के लिए एआई मॉडल चलाने में भी सक्षम होंगे।

नवीनतम तकनीकी समाचारों और समीक्षाओं के लिए गैजेट्स 360 को फ़ॉलो करें एक्सफेसबुक, व्हाट्सएप, थ्रेड्स और गूगल न्यूज। गैजेट और तकनीक पर नवीनतम वीडियो के लिए, हमारे YouTube चैनल की सदस्यता लें। यदि आप शीर्ष प्रभावशाली व्यक्तियों के बारे में सब कुछ जानना चाहते हैं, तो इंस्टाग्राम और यूट्यूब पर हमारे इन-हाउस Who’sThat360 को फ़ॉलो करें।

Vivo X200, Vivo X200 Pro दिसंबर के दूसरे सप्ताह में भारत में आधिकारिक तौर पर उपलब्ध हो सकते हैं; बिक्री की तारीख लीक



Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button