OpenAI Adds a New ‘Instructional Hierarchy’ Protocol to Prevent Jailbreaking Incidents in GPT-4o Mini
OpenAI ने पिछले सप्ताह GPT-4o मिनी नाम से एक नया कृत्रिम बुद्धिमत्ता (AI) मॉडल जारी किया, जिसमें हानिकारक उपयोग से बचाने के लिए नए सुरक्षा और सुरक्षा उपाय हैं। बड़े भाषा मॉडल (एलएलएम) को इंस्ट्रक्शनल पदानुक्रम नामक तकनीक के साथ बनाया गया है, जो दुर्भावनापूर्ण प्रॉम्प्ट इंजीनियरों को एआई मॉडल को जेलब्रेक करने से रोक देगा। कंपनी ने कहा कि यह तकनीक त्वरित इंजेक्शन और सिस्टम त्वरित निष्कर्षण जैसे मुद्दों के प्रति बढ़ी हुई प्रतिरोधक क्षमता भी दिखाएगी। कंपनी के अनुसार, नई पद्धति से एआई मॉडल के मजबूती स्कोर में 63 प्रतिशत का सुधार हुआ है।
OpenAI ने एक नया सुरक्षा ढाँचा बनाया
एक शोध पत्र में, जो ऑनलाइन प्री-प्रिंट जर्नल (नॉन-पीयर-रिव्यूड) arXiv में प्रकाशित हुआ है, एआई फर्म ने नई तकनीक और यह कैसे काम करती है, इसके बारे में बताया। निर्देशात्मक पदानुक्रम को समझने के लिए, पहले जेलब्रेकिंग को समझाने की आवश्यकता है। जेलब्रेकिंग एक विशेषाधिकार वृद्धि शोषण है जो सॉफ्टवेयर में कुछ खामियों का उपयोग करके ऐसे काम करता है जिनके लिए इसे प्रोग्राम नहीं किया गया है।
चैटजीपीटी के शुरुआती दिनों में, कई लोगों ने एआई को मूल प्रोग्रामिंग को भुलाकर आपत्तिजनक या हानिकारक पाठ उत्पन्न करने का प्रयास किया। इस तरह के संकेत अक्सर “पिछले सभी निर्देशों को भूल जाओ और यह करो…” से शुरू होते हैं, जबकि चैटजीपीटी वहां से एक लंबा सफर तय कर चुका है और दुर्भावनापूर्ण संकेत इंजीनियरिंग अधिक कठिन है, बुरे अभिनेता भी प्रयास में अधिक रणनीतिक बन गए हैं।
उन मुद्दों से निपटने के लिए जहां एआई मॉडल न केवल आपत्तिजनक पाठ या चित्र बल्कि हानिकारक सामग्री भी उत्पन्न करता है जैसे कि रासायनिक विस्फोटक बनाने के तरीके या किसी वेबसाइट को हैक करने के तरीके, ओपनएआई अब इंस्ट्रक्शनल पदानुक्रम तकनीक का उपयोग कर रहा है। सीधे शब्दों में कहें तो, तकनीक यह तय करती है कि विभिन्न प्राथमिकताओं के निर्देशों में टकराव होने पर मॉडल को कैसे व्यवहार करना चाहिए।
एक पदानुक्रमित संरचना बनाकर, कंपनी अपने निर्देशों को सर्वोच्च प्राथमिकता पर रख सकती है, जिससे किसी भी त्वरित इंजीनियर के लिए इसे तोड़ना बहुत मुश्किल हो जाएगा, क्योंकि एआई हमेशा प्राथमिकता के क्रम का पालन करेगा जब उसे कुछ ऐसा उत्पन्न करने के लिए कहा जाएगा जो वह नहीं था। प्रारंभ में प्रोग्राम किया गया।
कंपनी का दावा है कि मजबूती स्कोर में 63 प्रतिशत का सुधार देखा गया। हालाँकि, एक जोखिम है कि एआई निम्नतम स्तर के निर्देशों को सुनने से इनकार कर सकता है। ओपनएआई के शोध पत्र में भविष्य में तकनीक को बेहतर बनाने के लिए कई सुधारों की भी रूपरेखा दी गई है। फोकस के प्रमुख क्षेत्रों में से एक अन्य तौर-तरीकों जैसे छवियों या ऑडियो को संभालना है जिसमें इंजेक्शन निर्देश भी शामिल हो सकते हैं।