Epoch AI Launches FrontierMath AI Benchmark to Test Capabilities of AI Models
कैलिफोर्निया स्थित शोध संस्थान एपोच एआई ने पिछले सप्ताह एक नया कृत्रिम बुद्धिमत्ता (एआई) बेंचमार्क लॉन्च किया। फ्रंटियरमैथ नाम का नया एआई बेंचमार्क बड़े भाषा मॉडल (एलएलएम) को उनकी पुन: सीज़निंग और गणितीय समस्या-समाधान की क्षमता पर परीक्षण करता है। एआई फर्म का दावा है कि मौजूदा गणित बेंचमार्क डेटा संदूषण और एआई मॉडल द्वारा उन पर बहुत अधिक अंक प्राप्त करने जैसे कारकों के कारण बहुत उपयोगी नहीं हैं। एपोच एआई का दावा है कि प्रमुख एलएलएम ने भी नए बेंचमार्क पर दो प्रतिशत से कम स्कोर किया है।
एपोच एआई ने फ्रंटियरमैथ बेंचमार्क लॉन्च किया
एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, एआई फर्म ने बताया कि उसने सैकड़ों मूल और अप्रकाशित गणित समस्याओं को बनाने के लिए 60 से अधिक गणितज्ञों के साथ सहयोग किया। एपोच एआई का दावा है कि इन सवालों को हल करने में गणितज्ञों को भी घंटों लग जाएंगे। नए बेंचमार्क को विकसित करने के पीछे का कारण GSM8K और MATH जैसे मौजूदा बेंचमार्क की सीमाएं बताई गईं, जहां AI मॉडल आम तौर पर उच्च अंक प्राप्त करते हैं।
कंपनी ने दावा किया कि एलएलएम द्वारा हासिल किए गए उच्च स्कोर काफी हद तक डेटा संदूषण के कारण हैं। इसका मतलब है कि प्रश्न किसी तरह पहले ही एआई मॉडल में फीड कर दिए गए थे, जिसके परिणामस्वरूप वे आसानी से प्रश्न हल कर सके।
फ्रंटियरमैथ नई समस्याओं को शामिल करके समस्या का समाधान करता है जो अद्वितीय हैं और कहीं भी प्रकाशित नहीं हुई हैं, जिससे डेटा संदूषण से जुड़े जोखिम कम हो जाते हैं। इसके अलावा, बेंचमार्क में संख्या सिद्धांत, वास्तविक विश्लेषण और बीजगणितीय ज्यामिति में कम्प्यूटेशनल रूप से गहन समस्याओं के साथ-साथ ज़र्मेलो-फ्रेंकेल सेट सिद्धांत जैसे विषयों सहित प्रश्नों की एक विस्तृत श्रृंखला शामिल है। एआई फर्म का कहना है कि सभी प्रश्न “अनुमान प्रमाण” हैं, जिसका अर्थ है कि उन्हें मजबूत तर्क के बिना आकस्मिक रूप से हल नहीं किया जा सकता है।
एपोच एआई ने इस बात पर प्रकाश डाला कि एआई की योग्यता को मापने के लिए, रचनात्मक समस्या-समाधान पर बेंचमार्क बनाए जाने चाहिए जहां एआई को कई चरणों में तर्क बनाए रखना होगा। विशेष रूप से, कई उद्योग दिग्गजों का मानना है कि मौजूदा बेंचमार्क यह मापने के लिए पर्याप्त नहीं हैं कि एआई मॉडल कितना उन्नत है।
एक पोस्ट में नए बेंचमार्क पर प्रतिक्रिया देते हुए, ओपनएआई शोधकर्ता नोम ब्राउन, जो कंपनी के ओ1 मॉडल के पीछे थे, ने नए बेंचमार्क का स्वागत किया और कहा, “मुझे फ्रंटियर मॉडल के लिए इतनी कम पास दर के साथ एक नया ईवल देखना पसंद है।”
नवीनतम तकनीकी समाचारों और समीक्षाओं के लिए गैजेट्स 360 को फ़ॉलो करें एक्सफेसबुक, व्हाट्सएप, थ्रेड्स और गूगल न्यूज। गैजेट और तकनीक पर नवीनतम वीडियो के लिए, हमारे YouTube चैनल की सदस्यता लें। यदि आप शीर्ष प्रभावशाली व्यक्तियों के बारे में सब कुछ जानना चाहते हैं, तो इंस्टाग्राम और यूट्यूब पर हमारे इन-हाउस Who’sThat360 को फ़ॉलो करें।
पोको X7 प्रो भारत में Xiaomi के हाइपरOS 2 के साथ आने वाला पहला स्मार्टफोन हो सकता है
3 दिसंबर को भारत में लॉन्च से पहले iQOO 13 के रंग विकल्प सामने आए