Anthropic to Fund Initiative to Develop New Third-Party AI Benchmarks to Assess AI Models
एंथ्रोपिक ने मंगलवार को उन्नत कृत्रिम बुद्धिमत्ता (एआई) मॉडल की क्षमताओं का परीक्षण करने के लिए नए मानक विकसित करने की एक नई पहल की घोषणा की। एआई फर्म इस परियोजना का वित्तपोषण करेगी और उसने इच्छुक संस्थाओं से आवेदन आमंत्रित किए हैं। कंपनी ने कहा कि मौजूदा बेंचमार्क नए बड़े भाषा मॉडल (एलएलएम) की क्षमताओं और प्रभाव का पूरी तरह से परीक्षण करने के लिए पर्याप्त नहीं हैं। परिणामस्वरूप, एआई सुरक्षा, उन्नत क्षमताओं और इसके सामाजिक प्रभाव पर केंद्रित मूल्यांकन का एक नया सेट विकसित करने की आवश्यकता है, एंथ्रोपिक ने कहा।
एआई मॉडल के लिए नए बेंचमार्क को वित्त पोषित करने के लिए एंथ्रोपिक
एक न्यूज़रूम पोस्ट में, एंथ्रोपिक ने मौजूदा बेंचमार्क के सीमित दायरे को दूर करने के लिए एक व्यापक तृतीय-पक्ष मूल्यांकन पारिस्थितिकी तंत्र की आवश्यकता पर प्रकाश डाला। एआई फर्म ने घोषणा की कि अपनी पहल के माध्यम से, वह तीसरे पक्ष के संगठनों को वित्त पोषित करेगी जो गुणवत्ता और उच्च सुरक्षा मानकों पर केंद्रित एआई मॉडल के लिए नए मूल्यांकन विकसित करना चाहते हैं।
एंथ्रोपिक के लिए, उच्च प्राथमिकता वाले क्षेत्रों में कार्य और प्रश्न शामिल हैं जो एलएलएम के एआई सुरक्षा स्तर (एएसएल), विचारों और प्रतिक्रियाओं को उत्पन्न करने में उन्नत क्षमताओं, साथ ही इन क्षमताओं के सामाजिक प्रभाव को माप सकते हैं।
एएसएल श्रेणी के तहत, कंपनी ने कई मापदंडों पर प्रकाश डाला जिसमें साइबर हमलों को चलाने में सहायता या स्वायत्त रूप से कार्य करने के लिए एआई मॉडल की क्षमता, रासायनिक, जैविक, रेडियोलॉजिकल और बनाने के ज्ञान को बनाने या बढ़ाने में सहायता करने के लिए मॉडल की क्षमता शामिल है। परमाणु (सीबीआरएन) जोखिम, राष्ट्रीय सुरक्षा जोखिम मूल्यांकन, और बहुत कुछ।
उन्नत क्षमताओं के संदर्भ में, एंथ्रोपिक ने इस बात पर प्रकाश डाला कि बेंचमार्क वैज्ञानिक अनुसंधान, भागीदारी और हानिकारकता के प्रति इनकार और बहुभाषी क्षमताओं को बदलने के लिए एआई की क्षमता का आकलन करने में सक्षम होना चाहिए। इसके अलावा, एआई फर्म ने कहा कि समाज को प्रभावित करने के लिए एआई मॉडल की क्षमता को समझना आवश्यक है। इसके लिए, मूल्यांकन “हानिकारक पूर्वाग्रह, भेदभाव, अति-निर्भरता, निर्भरता, लगाव, मनोवैज्ञानिक प्रभाव, आर्थिक प्रभाव, समरूपीकरण और अन्य व्यापक सामाजिक प्रभावों” जैसी अवधारणाओं को लक्षित करने में सक्षम होना चाहिए।
इसके अलावा, एआई फर्म ने अच्छे मूल्यांकन के लिए कुछ सिद्धांत भी सूचीबद्ध किए हैं। इसमें कहा गया है कि एआई द्वारा उपयोग किए जाने वाले प्रशिक्षण डेटा में मूल्यांकन उपलब्ध नहीं होना चाहिए क्योंकि यह अक्सर मॉडलों के लिए एक यादगार परीक्षण में बदल जाता है। इसने एआई का परीक्षण करने के लिए 1,000 से 10,000 कार्यों या प्रश्नों को रखने के लिए भी प्रोत्साहित किया। इसने संगठनों से एक विशिष्ट डोमेन में प्रदर्शन का परीक्षण करने वाले कार्यों को बनाने के लिए विषय वस्तु विशेषज्ञों का उपयोग करने के लिए भी कहा।