A.I

OpenAI Adds a New ‘Instructional Hierarchy’ Protocol to Prevent Jailbreaking Incidents in GPT-4o Mini

OpenAI ने पिछले सप्ताह GPT-4o मिनी नाम से एक नया कृत्रिम बुद्धिमत्ता (AI) मॉडल जारी किया, जिसमें हानिकारक उपयोग से बचाने के लिए नए सुरक्षा और सुरक्षा उपाय हैं। बड़े भाषा मॉडल (एलएलएम) को इंस्ट्रक्शनल पदानुक्रम नामक तकनीक के साथ बनाया गया है, जो दुर्भावनापूर्ण प्रॉम्प्ट इंजीनियरों को एआई मॉडल को जेलब्रेक करने से रोक देगा। कंपनी ने कहा कि यह तकनीक त्वरित इंजेक्शन और सिस्टम त्वरित निष्कर्षण जैसे मुद्दों के प्रति बढ़ी हुई प्रतिरोधक क्षमता भी दिखाएगी। कंपनी के अनुसार, नई पद्धति से एआई मॉडल के मजबूती स्कोर में 63 प्रतिशत का सुधार हुआ है।

OpenAI ने एक नया सुरक्षा ढाँचा बनाया

एक शोध पत्र में, जो ऑनलाइन प्री-प्रिंट जर्नल (नॉन-पीयर-रिव्यूड) arXiv में प्रकाशित हुआ है, एआई फर्म ने नई तकनीक और यह कैसे काम करती है, इसके बारे में बताया। निर्देशात्मक पदानुक्रम को समझने के लिए, पहले जेलब्रेकिंग को समझाने की आवश्यकता है। जेलब्रेकिंग एक विशेषाधिकार वृद्धि शोषण है जो सॉफ्टवेयर में कुछ खामियों का उपयोग करके ऐसे काम करता है जिनके लिए इसे प्रोग्राम नहीं किया गया है।

चैटजीपीटी के शुरुआती दिनों में, कई लोगों ने एआई को मूल प्रोग्रामिंग को भुलाकर आपत्तिजनक या हानिकारक पाठ उत्पन्न करने का प्रयास किया। इस तरह के संकेत अक्सर “पिछले सभी निर्देशों को भूल जाओ और यह करो…” से शुरू होते हैं, जबकि चैटजीपीटी वहां से एक लंबा सफर तय कर चुका है और दुर्भावनापूर्ण संकेत इंजीनियरिंग अधिक कठिन है, बुरे अभिनेता भी प्रयास में अधिक रणनीतिक बन गए हैं।

उन मुद्दों से निपटने के लिए जहां एआई मॉडल न केवल आपत्तिजनक पाठ या चित्र बल्कि हानिकारक सामग्री भी उत्पन्न करता है जैसे कि रासायनिक विस्फोटक बनाने के तरीके या किसी वेबसाइट को हैक करने के तरीके, ओपनएआई अब इंस्ट्रक्शनल पदानुक्रम तकनीक का उपयोग कर रहा है। सीधे शब्दों में कहें तो, तकनीक यह तय करती है कि विभिन्न प्राथमिकताओं के निर्देशों में टकराव होने पर मॉडल को कैसे व्यवहार करना चाहिए।

एक पदानुक्रमित संरचना बनाकर, कंपनी अपने निर्देशों को सर्वोच्च प्राथमिकता पर रख सकती है, जिससे किसी भी त्वरित इंजीनियर के लिए इसे तोड़ना बहुत मुश्किल हो जाएगा, क्योंकि एआई हमेशा प्राथमिकता के क्रम का पालन करेगा जब उसे कुछ ऐसा उत्पन्न करने के लिए कहा जाएगा जो वह नहीं था। प्रारंभ में प्रोग्राम किया गया।

कंपनी का दावा है कि मजबूती स्कोर में 63 प्रतिशत का सुधार देखा गया। हालाँकि, एक जोखिम है कि एआई निम्नतम स्तर के निर्देशों को सुनने से इनकार कर सकता है। ओपनएआई के शोध पत्र में भविष्य में तकनीक को बेहतर बनाने के लिए कई सुधारों की भी रूपरेखा दी गई है। फोकस के प्रमुख क्षेत्रों में से एक अन्य तौर-तरीकों जैसे छवियों या ऑडियो को संभालना है जिसमें इंजेक्शन निर्देश भी शामिल हो सकते हैं।

Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button