A.I

Hugging Face Introduces Open-Source SmolVLM Vision Language Model Focused on Efficiency

0 0 2 minutes read

कृत्रिम बुद्धिमत्ता (एआई) और मशीन लर्निंग (एमएल) प्लेटफॉर्म, हगिंग फेस ने पिछले सप्ताह एक नया दृष्टि-केंद्रित एआई मॉडल पेश किया। डब किया गया SmolVLM (जहाँ VLM विज़न लैंग्वेज मॉडल का संक्षिप्त रूप है), यह एक कॉम्पैक्ट आकार का मॉडल है जो दक्षता पर केंद्रित है। कंपनी का दावा है कि अपने छोटे आकार और उच्च दक्षता के कारण, यह उन उद्यमों और एआई उत्साही लोगों के लिए उपयोगी हो सकता है जो इसके बुनियादी ढांचे में बहुत अधिक निवेश किए बिना एआई क्षमताएं चाहते हैं। हगिंग फेस ने व्यक्तिगत और व्यावसायिक उपयोग दोनों के लिए Apache 2.0 लाइसेंस के तहत SmolVLM विज़न मॉडल को भी ओपन-सोर्स किया है।

गले लगाने वाला चेहरा SmolVLM का परिचय देता है

एक ब्लॉग पोस्ट में, हगिंग फेस ने नए ओपन-सोर्स विज़न मॉडल के बारे में विस्तार से बताया। कंपनी ने मेमोरी के कुशल उपयोग और तेज़ अनुमान के लिए एआई मॉडल को “अत्याधुनिक” कहा। छोटे विज़न मॉडल की उपयोगिता पर प्रकाश डालते हुए, कंपनी ने एआई कंपनियों द्वारा मॉडलों को अधिक कुशल और लागत प्रभावी बनाने के लिए उन्हें छोटा करने की हालिया प्रवृत्ति पर ध्यान दिया।

लघु दृष्टि मॉडल पारिस्थितिकी तंत्र
फोटो साभार: गले मिलता हुआ चेहरा

SmolVLM परिवार में तीन AI मॉडल वेरिएंट हैं, जिनमें से प्रत्येक में दो बिलियन पैरामीटर हैं। पहला SmolVLM-Base है, जो मानक मॉडल है। इसके अलावा, एसएमओएलवीएलएम-सिंथेटिक सिंथेटिक डेटा (एआई या कंप्यूटर द्वारा उत्पन्न डेटा) पर प्रशिक्षित फाइन-ट्यून वेरिएंट है, और एसएमओएलवीएलएम इंस्ट्रक्ट इंस्ट्रक्शन वेरिएंट है जिसका उपयोग एंड-यूज़र-केंद्रित एप्लिकेशन बनाने के लिए किया जा सकता है।

तकनीकी विवरण की बात करें तो, विज़न मॉडल केवल 5.02GB GPU RAM के साथ काम कर सकता है, जो कि Qwen2-VL 2B की 13.7GB GPU RAM और IninterVL2 2B की 10.52GB GPU RAM की आवश्यकता से काफी कम है। इसके चलते हगिंग फेस का दावा है कि एआई मॉडल लैपटॉप पर ऑन-डिवाइस चल सकता है।

SmolVLM किसी भी क्रम में पाठ और छवियों के अनुक्रम को स्वीकार कर सकता है और उपयोगकर्ता प्रश्नों के उत्तर उत्पन्न करने के लिए उनका विश्लेषण कर सकता है। यह 384 x 384p रिज़ॉल्यूशन छवि पैच को 81 विज़ुअल डेटा टोकन में एन्कोड करता है। कंपनी ने दावा किया कि यह एआई को परीक्षण संकेतों और एक छवि को 1,200 टोकन में एन्कोड करने में सक्षम बनाता है, जबकि क्वेन2-वीएल के लिए आवश्यक 16,000 टोकन के विपरीत।

इन विशिष्टताओं के साथ, हगिंग फेस इस बात पर प्रकाश डालता है कि SmolVLM का उपयोग छोटे उद्यमों और AI उत्साही लोगों द्वारा आसानी से किया जा सकता है और बिना किसी बड़े अपग्रेड की आवश्यकता वाले तकनीकी स्टैक के स्थानीयकृत सिस्टम में तैनात किया जा सकता है। उद्यम महत्वपूर्ण लागत खर्च किए बिना टेक्स्ट और छवि-आधारित अनुमानों के लिए एआई मॉडल चलाने में भी सक्षम होंगे।

नवीनतम तकनीकी समाचारों और समीक्षाओं के लिए गैजेट्स 360 को फ़ॉलो करें एक्सफेसबुक, व्हाट्सएप, थ्रेड्स और गूगल न्यूज। गैजेट और तकनीक पर नवीनतम वीडियो के लिए, हमारे YouTube चैनल की सदस्यता लें। यदि आप शीर्ष प्रभावशाली व्यक्तियों के बारे में सब कुछ जानना चाहते हैं, तो इंस्टाग्राम और यूट्यूब पर हमारे इन-हाउस Who’sThat360 को फ़ॉलो करें।

Vivo X200, Vivo X200 Pro दिसंबर के दूसरे सप्ताह में भारत में आधिकारिक तौर पर उपलब्ध हो सकते हैं; बिक्री की तारीख लीक

Source link

Post Views: 5

Tags
आलिंगनशील चेहरा एआई मॉडल एलएलएम ऐ कृत्रिम होशियारी हगिंग फेस एसएमओएलवीएलएम विजन लैंग्वेज मॉडल ओपन सोर्स दक्षता फोकस एसएमओएलवीएलएम पेश किया गया

Biplab Das Send an email 1 day ago
0 0 2 minutes read

Facebook Twitter LinkedIn Tumblr Pinterest Reddit VKontakte Odnoklassniki Pocket

Share
Facebook Twitter LinkedIn Tumblr Pinterest Reddit VKontakte Odnoklassniki Pocket Share via Email Print