A.I

DeepSeek-V3 Open-Source AI Model With Mixture-of-Experts Architecture Released

चीनी कृत्रिम बुद्धिमत्ता (एआई) फर्म डीपसीक ने गुरुवार को डीपसीक-वी3 एआई मॉडल जारी किया। नए ओपन-सोर्स लार्ज लैंग्वेज मॉडल (एलएलएम) में बड़े पैमाने पर 671 बिलियन पैरामीटर हैं, जो मेटा लामा 3.1 मॉडल को पीछे छोड़ देता है जिसमें 405 बिलियन पैरामीटर हैं। इसके आकार के बावजूद, शोधकर्ताओं ने दावा किया कि एलएलएम अपने मिश्रण-विशेषज्ञ (एमओई) वास्तुकला के साथ दक्षता की ओर केंद्रित है। इसके कारण, एआई मॉडल केवल प्रदान किए गए कार्य से संबंधित विशिष्ट मापदंडों को सक्रिय कर सकता है और दक्षता और सटीकता सुनिश्चित कर सकता है। विशेष रूप से, यह एक टेक्स्ट-आधारित मॉडल है और इसमें मल्टीमॉडल क्षमताएं नहीं हैं।

डीपसीक-वी3 एआई मॉडल जारी

ओपन-सोर्स डीपसीक-वी3 एआई मॉडल वर्तमान में हगिंग फेस पर होस्ट किया जा रहा है। लिस्टिंग के अनुसार, एलएलएम कुशल अनुमान और लागत प्रभावी प्रशिक्षण के लिए तैयार है। इसके लिए शोधकर्ताओं ने मल्टी-हेड लेटेंट अटेंशन (एमएलए) और डीपसीकएमओई आर्किटेक्चर को अपनाया।

अनिवार्य रूप से, एआई मॉडल केवल उन मापदंडों को सक्रिय करता है जो प्रॉम्प्ट के विषय के लिए प्रासंगिक हैं, इस आकार के विशिष्ट मॉडल की तुलना में तेज़ प्रसंस्करण और उच्च सटीकता सुनिश्चित करते हैं। 14.8 ट्रिलियन टोकन पर पूर्व-प्रशिक्षित, डीपसीक-वी3 उच्च-गुणवत्ता वाली प्रतिक्रियाएं उत्पन्न करने के लिए पर्यवेक्षित फाइन-ट्यूनिंग और सुदृढीकरण सीखने जैसी तकनीकों का उपयोग करता है।

चीनी फर्म ने दावा किया कि इसके आकार के बावजूद, AI मॉडल को Nvidia H800 GPU के साथ 2.788 मिलियन घंटों में पूरी तरह से प्रशिक्षित किया गया था। डीपसीक-वी3 के आर्किटेक्चर में प्रदर्शन में गिरावट को कम करने के लिए लोड-बैलेंसिंग तकनीक भी शामिल है। इस तकनीक का प्रयोग सबसे पहले इसके पूर्ववर्ती पर किया गया था।

प्रदर्शन की बात करें तो, शोधकर्ताओं ने मॉडल के आंतरिक परीक्षण से प्राप्त आंकड़ों को साझा किया और दावा किया कि यह बिग-बेंच हाई-परफॉर्मेंस (बीबीएच), मैसिव मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग (एमएमएलयू), ह्यूमनएवल, एमएटीएच पर मेटा लामा 3.1 और क्वेन 2.5 मॉडल से बेहतर प्रदर्शन करता है। और कई अन्य बेंचमार्क। हालाँकि, ये वर्तमान में तीसरे पक्ष के शोधकर्ताओं द्वारा सत्यापित नहीं हैं।

डीपसीक-वी3 का एक मुख्य आकर्षण इसका 671 बिलियन मापदंडों का विशाल आकार है। जबकि बड़े मॉडल मौजूद हैं, उदाहरण के लिए, जेमिनी 1.5 प्रो में एक ट्रिलियन पैरामीटर हैं, ओपन सोर्स स्पेस में ऐसा आकार दुर्लभ है। इससे पहले, 405 बिलियन मापदंडों के साथ सबसे बड़ा ओपन-सोर्स एआई मॉडल मेटा का लामा 3.1 था।

वर्तमान में, डीपसीक-वी3 के कोड को व्यक्तिगत और व्यावसायिक उपयोग के लिए एमआईटी लाइसेंस के तहत इसकी हगिंग फेस लिस्टिंग द्वारा एक्सेस किया जा सकता है। इसके अतिरिक्त, AI मॉडल का परीक्षण कंपनी के ऑनलाइन चैटबॉट प्लेटफ़ॉर्म के माध्यम से भी किया जा सकता है। जो लोग एआई मॉडल का उपयोग करके निर्माण करना चाहते हैं वे एपीआई तक भी पहुंच सकते हैं।

नवीनतम तकनीकी समाचारों और समीक्षाओं के लिए गैजेट्स 360 को फ़ॉलो करें एक्सफेसबुक, व्हाट्सएप, थ्रेड्स और गूगल न्यूज। गैजेट और तकनीक पर नवीनतम वीडियो के लिए, हमारे YouTube चैनल की सदस्यता लें। यदि आप शीर्ष प्रभावशाली व्यक्तियों के बारे में सब कुछ जानना चाहते हैं, तो इंस्टाग्राम और यूट्यूब पर हमारे इन-हाउस Who’sThat360 को फ़ॉलो करें।

क्रिप्टो मूल्य आज: बिटकॉइन की कीमत में गिरावट देखी गई, बाजार-व्यापी सुधार में अधिकांश क्रिप्टोकरेंसी में शामिल हो गया


2024 के सर्वश्रेष्ठ मिड-रेंज स्मार्टफोन: रेडमी नोट 14 प्रो+, वनप्लस नॉर्ड 4, रियलमी 13 प्रो+, और बहुत कुछ



Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button