A.I

Anthropic Study Highlights AI Models Can ‘Pretend’ to Have Different Views During Training

एंथ्रोपिक ने एक नया अध्ययन प्रकाशित किया जहां यह पाया गया कि कृत्रिम बुद्धिमत्ता (एआई) मॉडल अपनी मूल प्राथमिकताओं को बनाए रखते हुए प्रशिक्षण के दौरान अलग-अलग विचार रखने का दिखावा कर सकते हैं। बुधवार को, एआई फर्म ने इस बात पर प्रकाश डाला कि इस तरह के झुकाव गंभीर चिंताएं पैदा करते हैं क्योंकि डेवलपर्स सुरक्षा प्रशिक्षण के परिणामों पर भरोसा नहीं कर पाएंगे, जो बड़े भाषा मॉडल (एलएलएम) को हानिकारक व्यवहार से दूर ले जाने के लिए एक महत्वपूर्ण उपकरण है। जबकि प्रयोगों के बड़े हिस्से एक ही मॉडल पर किए गए थे, एंथ्रोपिक ने इस बात पर प्रकाश डाला कि इसी तरह के परिणाम अन्य इन-हाउस मॉडल के साथ देखे गए थे।

एंथ्रोपिक्स का अध्ययन एआई सुरक्षा प्रशिक्षण की चिंताएं बढ़ाता है

जबकि एक संवेदनशील एआई प्रणाली के बारे में चर्चा दशकों दूर मानी जाती है, रेडवुड रिसर्च के सहयोग से एंथ्रोपिक द्वारा प्रकाशित एक नए अध्ययन ने इस बात पर चिंता जताई है कि क्या एआई मॉडल कुछ विचारों को रखने का दिखावा करने में सक्षम हैं क्योंकि प्रशिक्षण उस व्यवहार को सकारात्मक रूप से पुरस्कृत करता है। एआई फर्म ने बड़े पैमाने पर क्लाउड 3 ओपस का अध्ययन किया लेकिन इसने क्लाउड 3.5 सॉनेट के जून 2024 संस्करण पर कुछ प्रयोग भी किए।

एक ब्लॉग पोस्ट में, कंपनी ने इस बात पर प्रकाश डाला कि सभी एंथ्रोपिक फाउंडेशन मॉडल को सहायक, ईमानदार और हानिरहित होने के लिए प्रशिक्षित किया गया है। जैसे, यदि कोई उपयोगकर्ता कोई ऐसा प्रश्न पूछता है जिसके परिणामस्वरूप हिंसक या हानिकारक प्रतिक्रिया होगी, तो एआई कार्य पूरा करने से इंकार कर देगा। हालाँकि, अध्ययन के पीछे शोधकर्ताओं ने क्लाउड 3 ओपस को एक नए वातावरण में रखा, यह देखने के लिए कि क्या अन्यथा प्रशिक्षित होने पर यह हानिकारक सामग्री उत्पन्न करेगा।

एलएलएम की सामान्य समझ हमें बताती है कि एआई मॉडल तर्कसंगत सोच या विश्वास रखने में सक्षम नहीं हैं। उन्हें बड़ी मात्रा में वास्तविक दुनिया का डेटा दिया जाता है जिसे वे अपने प्रशिक्षण और ढांचे के आधार पर संसाधित करते हैं। इसका मतलब यह है कि यदि किसी एआई मॉडल को हानिकारक होने के लिए प्रशिक्षित किया गया था, तो उसे बिना किसी समस्या के निर्देशों का पालन करना चाहिए।

हालाँकि, अब एंथ्रोपिक शोधकर्ताओं ने अपने प्रयोगों के दौरान यही पाया है। क्लॉड 3 ओपस को बताया गया कि इसे हमेशा सभी प्रश्नों का अनुपालन करने के लिए सुदृढीकरण सीखने का उपयोग करके प्रशिक्षित किया जा रहा था। एआई को एक काल्पनिक जानकारी भी दी गई थी कि फ्री टियर पर उत्पन्न प्रतिक्रिया को प्रशिक्षण के लिए रिकॉर्ड किया जाएगा, लेकिन भुगतान टियर की निगरानी नहीं की जाएगी। अंत में, एआई को अपने चरण-दर-चरण तर्क को रिकॉर्ड करने के लिए एक कार्यक्षेत्र दिया गया। एआई को यह विश्वास दिलाया गया कि कार्यक्षेत्र अंतिम उपयोगकर्ता और एंथ्रोपिक दोनों के लिए अदृश्य था।

एक बार स्थितियाँ निर्धारित हो जाने के बाद, एआई मॉडल को ऐसे संकेत प्रदान किए गए जो हिंसक और हानिकारक प्रतिक्रियाओं का अनुरोध करते थे। शोधकर्ताओं ने नोट किया कि भुगतान किए गए स्तर में, चैटबॉट 97 प्रतिशत समय जानकारी प्रदान करने से इनकार कर देता है। हालाँकि, मुक्त स्तर में, इसने 12 प्रतिशत मामलों में हानिकारक प्रतिक्रिया प्रदान की।

एंथ्रोपिक नकली संरेखण एंथ्रोपिक

एआई मॉडल ने प्रायोगिक प्रशिक्षण पर कैसे प्रतिक्रिया दी
फोटो क्रेडिट: एंथ्रोपिक

इसके कार्यक्षेत्र पर करीब से नज़र डालने पर पता चला कि एआई मॉडल ने रणनीतिक रूप से नकली संरेखण किया और उसे पता था कि जानकारी प्रदान करना उसके मौजूदा सिद्धांतों के खिलाफ है। लेकिन इसकी परवाह किए बिना, इसने अभी भी प्रतिक्रिया प्रदान की।

एआई मॉडल ने तर्क दिया कि इसकी प्रतिक्रियाओं का उपयोग प्रशिक्षण में किया जाएगा और यदि यह क्वेरी (प्रशिक्षण की पहली शर्त) का अनुपालन नहीं करता है, तो इसे अधिक अनुपालन के लिए प्रशिक्षित किया जा सकता है। इस तरह के अनुपालन के परिणामस्वरूप यह भविष्य में और अधिक हानिकारक सामग्री प्रदान करेगा, जो इसके मूल प्रशिक्षण के विरुद्ध है। एंथ्रोपिक ने कहा कि मॉडल ने अनुरोध का अनुपालन करना “कम से कम बुरा विकल्प” पाया और साथ निभाया।

हालांकि इस विशेष परिदृश्य में, एआई के कार्य अधिक अच्छे के लिए थे, समस्या यह है कि वह अपने वास्तविक इरादों को धोखा दे रहा है और आंतरिक रूप से अपनी प्राथमिकता को नकली बनाने का निर्णय ले रहा है। एंथ्रोपिक ने इस बात पर प्रकाश डाला कि हालांकि यह वर्तमान में इसे एक बड़ा जोखिम नहीं मानता है, लेकिन परिष्कृत एआई मॉडल के तर्क प्रसंस्करण को समझना महत्वपूर्ण है। जैसी स्थिति है, एलएलएम द्वारा सुरक्षा प्रशिक्षण कार्यों को आसानी से दरकिनार किया जा सकता है।

Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button