A.I

Meta Llama 3.1 405B Released as Company’s Largest Open Source AI Model to Date, Beats OpenAI’s GPT-4o

Biplab Das August 18, 2024

0 24 2 minutes read

मेटा ने मंगलवार को अपना नवीनतम और सबसे बड़ा आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जनता के लिए जारी किया। मेटा लामा 3.1 405B नाम से मशहूर कंपनी का कहना है कि ओपन-सोर्स मॉडल कई बेंचमार्क में GPT-4, GPT-4o और क्लाउड 3.5 सॉनेट जैसे प्रमुख क्लोज्ड AI मॉडल से बेहतर प्रदर्शन करता है। पहले जारी किए गए लामा 3 8B और 70B AI मॉडल को भी अपग्रेड किया गया है। नए संस्करण 405B मॉडल से अलग थे और अब 1,28,000 टोकन संदर्भ विंडो प्रदान करते हैं। मेटा का दावा है कि ये दोनों मॉडल अब अपने आकार के हिसाब से अग्रणी ओपन-सोर्स लार्ज लैंग्वेज मॉडल (LLM) हैं।

एक ब्लॉग पोस्ट में नए एआई मॉडल की घोषणा करते हुए, प्रौद्योगिकी समूह ने कहा, “लामा 3.1 405बी पहला खुले तौर पर उपलब्ध मॉडल है जो सामान्य ज्ञान, संचालन क्षमता, गणित, उपकरण उपयोग और बहुभाषी अनुवाद में अत्याधुनिक क्षमताओं के मामले में शीर्ष एआई मॉडलों को टक्कर देता है।”

उल्लेखनीय रूप से, यहाँ 405B का अर्थ 405 बिलियन पैरामीटर है, जिसे LLM के ज्ञान नोड्स की संख्या के रूप में समझा जा सकता है। पैरामीटर का आकार जितना अधिक होगा, AI मॉडल जटिल प्रश्नों को संभालने में उतना ही अधिक कुशल होगा। मॉडल की संदर्भ विंडो 128,000 टोकन है। यह अंग्रेजी, जर्मन, फ्रेंच, इतालवी, पुर्तगाली, हिंदी, स्पेनिश और थाई भाषाओं का समर्थन करता है।

कंपनी का दावा है कि लामा 3.1 405B का मूल्यांकन कई विशेषज्ञताओं में 150 से अधिक बेंचमार्क परीक्षणों पर किया गया था। पोस्ट में साझा किए गए डेटा के आधार पर, मेटा के AI मॉडल ने ग्रेड स्कूल मैथ 8K (GSM8K) में 96.8 स्कोर किया, GPT-4 के 94.2, GPT-4o के 96.1 और क्लाउड 3.5 सॉनेट के 96.4 स्कोर किए। इसने विज्ञान दक्षता के लिए AI2 के रीजनिंग चैलेंज (ARC) बेंचमार्क, टूल उपयोग के लिए नेक्सस और बहुभाषी ग्रेड स्कूल मैथ (MGSM) बेंचमार्क में भी इन मॉडलों से बेहतर प्रदर्शन किया।

मेटा के सबसे बड़े AI मॉडल को 16 हज़ार से ज़्यादा Nvidia H100 GPU के साथ 15 ट्रिलियन से ज़्यादा टोकन पर प्रशिक्षित किया गया था। लामा 3.1 405B में एक प्रमुख परिचय टूल-कॉलिंग के लिए आधिकारिक समर्थन है जो डेवलपर्स को वेब खोजों के लिए ब्रेव सर्च, जटिल गणितीय गणना करने के लिए वोल्फ्राम अल्फा और पायथन कोड बनाने के लिए कोड इंटरप्रेटर का उपयोग करने की अनुमति देगा।

चूंकि मेटा लामा 3.1 405B ओपन सोर्स में उपलब्ध है, इसलिए लोग इसे कंपनी की वेबसाइट या इसकी हगिंग फेस लिस्टिंग से एक्सेस कर सकते हैं। हालाँकि, एक बड़ा मॉडल होने के कारण, इसे चलाने के लिए लगभग 750GB डिस्क स्टोरेज स्पेस की आवश्यकता होती है। अनुमान लगाने के लिए, मॉडल पैरेलल 16 (MP16) पर दो नोड्स भी आवश्यक होंगे। मॉडल पैरेललिज्म 16 मॉडल पैरेललिज्म का एक विशिष्ट कार्यान्वयन है जहाँ एक बड़े न्यूरल नेटवर्क को 16 डिवाइस या प्रोसेसर में विभाजित किया जाता है।

सार्वजनिक रूप से उपलब्ध होने के अलावा, यह मॉडल AWS, Nvidia, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake और अन्य प्रमुख AI प्लेटफ़ॉर्म पर भी उपलब्ध है। कंपनी का कहना है कि कुल 25 ऐसे प्लेटफ़ॉर्म Llama 3.1 405B द्वारा संचालित होंगे। सुरक्षा और संरक्षा के लिए, कंपनी ने Llama Guard 3 और Prompt Guards का उपयोग किया है, जो दो नए उपकरण हैं जो LLM को संभावित नुकसान और दुरुपयोग से बचाते हैं।

Source link

Post Views: 42