November 7, 2024
A.I

Meta Llama 3.1 405B Released as Company’s Largest Open Source AI Model to Date, Beats OpenAI’s GPT-4o

  • August 18, 2024
  • 1 min read
Meta Llama 3.1 405B Released as Company’s Largest Open Source AI Model to Date, Beats OpenAI’s GPT-4o

मेटा ने मंगलवार को अपना नवीनतम और सबसे बड़ा आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जनता के लिए जारी किया। मेटा लामा 3.1 405B नाम से मशहूर कंपनी का कहना है कि ओपन-सोर्स मॉडल कई बेंचमार्क में GPT-4, GPT-4o और क्लाउड 3.5 सॉनेट जैसे प्रमुख क्लोज्ड AI मॉडल से बेहतर प्रदर्शन करता है। पहले जारी किए गए लामा 3 8B और 70B AI मॉडल को भी अपग्रेड किया गया है। नए संस्करण 405B मॉडल से अलग थे और अब 1,28,000 टोकन संदर्भ विंडो प्रदान करते हैं। मेटा का दावा है कि ये दोनों मॉडल अब अपने आकार के हिसाब से अग्रणी ओपन-सोर्स लार्ज लैंग्वेज मॉडल (LLM) हैं।

एक ब्लॉग पोस्ट में नए एआई मॉडल की घोषणा करते हुए, प्रौद्योगिकी समूह ने कहा, “लामा 3.1 405बी पहला खुले तौर पर उपलब्ध मॉडल है जो सामान्य ज्ञान, संचालन क्षमता, गणित, उपकरण उपयोग और बहुभाषी अनुवाद में अत्याधुनिक क्षमताओं के मामले में शीर्ष एआई मॉडलों को टक्कर देता है।”

उल्लेखनीय रूप से, यहाँ 405B का अर्थ 405 बिलियन पैरामीटर है, जिसे LLM के ज्ञान नोड्स की संख्या के रूप में समझा जा सकता है। पैरामीटर का आकार जितना अधिक होगा, AI मॉडल जटिल प्रश्नों को संभालने में उतना ही अधिक कुशल होगा। मॉडल की संदर्भ विंडो 128,000 टोकन है। यह अंग्रेजी, जर्मन, फ्रेंच, इतालवी, पुर्तगाली, हिंदी, स्पेनिश और थाई भाषाओं का समर्थन करता है।

कंपनी का दावा है कि लामा 3.1 405B का मूल्यांकन कई विशेषज्ञताओं में 150 से अधिक बेंचमार्क परीक्षणों पर किया गया था। पोस्ट में साझा किए गए डेटा के आधार पर, मेटा के AI मॉडल ने ग्रेड स्कूल मैथ 8K (GSM8K) में 96.8 स्कोर किया, GPT-4 के 94.2, GPT-4o के 96.1 और क्लाउड 3.5 सॉनेट के 96.4 स्कोर किए। इसने विज्ञान दक्षता के लिए AI2 के रीजनिंग चैलेंज (ARC) बेंचमार्क, टूल उपयोग के लिए नेक्सस और बहुभाषी ग्रेड स्कूल मैथ (MGSM) बेंचमार्क में भी इन मॉडलों से बेहतर प्रदर्शन किया।

मेटा के सबसे बड़े AI मॉडल को 16 हज़ार से ज़्यादा Nvidia H100 GPU के साथ 15 ट्रिलियन से ज़्यादा टोकन पर प्रशिक्षित किया गया था। लामा 3.1 405B में एक प्रमुख परिचय टूल-कॉलिंग के लिए आधिकारिक समर्थन है जो डेवलपर्स को वेब खोजों के लिए ब्रेव सर्च, जटिल गणितीय गणना करने के लिए वोल्फ्राम अल्फा और पायथन कोड बनाने के लिए कोड इंटरप्रेटर का उपयोग करने की अनुमति देगा।

चूंकि मेटा लामा 3.1 405B ओपन सोर्स में उपलब्ध है, इसलिए लोग इसे कंपनी की वेबसाइट या इसकी हगिंग फेस लिस्टिंग से एक्सेस कर सकते हैं। हालाँकि, एक बड़ा मॉडल होने के कारण, इसे चलाने के लिए लगभग 750GB डिस्क स्टोरेज स्पेस की आवश्यकता होती है। अनुमान लगाने के लिए, मॉडल पैरेलल 16 (MP16) पर दो नोड्स भी आवश्यक होंगे। मॉडल पैरेललिज्म 16 मॉडल पैरेललिज्म का एक विशिष्ट कार्यान्वयन है जहाँ एक बड़े न्यूरल नेटवर्क को 16 डिवाइस या प्रोसेसर में विभाजित किया जाता है।

सार्वजनिक रूप से उपलब्ध होने के अलावा, यह मॉडल AWS, Nvidia, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake और अन्य प्रमुख AI प्लेटफ़ॉर्म पर भी उपलब्ध है। कंपनी का कहना है कि कुल 25 ऐसे प्लेटफ़ॉर्म Llama 3.1 405B द्वारा संचालित होंगे। सुरक्षा और संरक्षा के लिए, कंपनी ने Llama Guard 3 और Prompt Guards का उपयोग किया है, जो दो नए उपकरण हैं जो LLM को संभावित नुकसान और दुरुपयोग से बचाते हैं।

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *