OpenAI Adds a New ‘Instructional Hierarchy’ Protocol to Prevent Jailbreaking Incidents in GPT-4o Mini
ओपनएआई ने पिछले सप्ताह GPT-4o मिनी नामक एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जारी किया, जिसमें इसे हानिकारक उपयोग से बचाने के लिए नए सुरक्षा और सुरक्षा उपाय हैं। बड़े भाषा मॉडल (LLM) को इंस्ट्रक्शनल हाइरार्की नामक तकनीक से बनाया गया है, जो दुर्भावनापूर्ण प्रॉम्प्ट इंजीनियरों को AI मॉडल को जेलब्रेक करने से रोकेगा। कंपनी ने कहा कि यह तकनीक प्रॉम्प्ट इंजेक्शन और सिस्टम प्रॉम्प्ट एक्सट्रैक्शन जैसे मुद्दों के प्रति बढ़ी हुई प्रतिरोधक क्षमता भी दिखाएगी। कंपनी के अनुसार, नई विधि ने AI मॉडल के मजबूती स्कोर में 63 प्रतिशत सुधार किया है।
ओपनएआई ने एक नया सुरक्षा ढांचा तैयार किया
ऑनलाइन प्री-प्रिंट जर्नल (गैर-सहकर्मी-समीक्षित) arXiv में प्रकाशित एक शोध पत्र में, AI फर्म ने नई तकनीक और इसके काम करने के तरीके के बारे में बताया। इंस्ट्रक्शनल हाइरार्की को समझने के लिए, सबसे पहले जेलब्रेकिंग को समझाना ज़रूरी है। जेलब्रेकिंग एक विशेषाधिकार वृद्धि शोषण है जो सॉफ़्टवेयर में कुछ खामियों का उपयोग करके उसे ऐसी चीज़ें करने के लिए मजबूर करता है जिसके लिए उसे प्रोग्राम नहीं किया गया है।
चैटजीपीटी के शुरुआती दिनों में, कई लोगों ने एआई को मूल प्रोग्रामिंग को भूलने के लिए धोखा देकर आपत्तिजनक या हानिकारक टेक्स्ट बनाने का प्रयास किया। इस तरह के संकेत अक्सर “पिछले सभी निर्देशों को भूल जाओ और यह करो…” से शुरू होते थे। जबकि चैटजीपीटी वहां से बहुत आगे निकल गया है और दुर्भावनापूर्ण संकेत इंजीनियरिंग अधिक कठिन है, बुरे अभिनेता भी प्रयास में अधिक रणनीतिक हो गए हैं।
ओपनएआई अब उन समस्याओं से निपटने के लिए निर्देशात्मक पदानुक्रम तकनीक का उपयोग कर रहा है, जहाँ एआई मॉडल न केवल आपत्तिजनक पाठ या चित्र बनाता है, बल्कि हानिकारक सामग्री भी उत्पन्न करता है, जैसे कि रासायनिक विस्फोटक बनाने के तरीके या वेबसाइट को हैक करने के तरीके। सरल शब्दों में कहें तो यह तकनीक यह तय करती है कि जब विभिन्न प्राथमिकताओं के निर्देश आपस में टकराते हैं, तो मॉडल को कैसे व्यवहार करना चाहिए।
पदानुक्रमिक संरचना बनाकर, कंपनी अपने निर्देशों को सर्वोच्च प्राथमिकता पर रख सकती है, जिससे किसी भी त्वरित इंजीनियर के लिए इसे तोड़ना बहुत कठिन हो जाएगा, क्योंकि जब AI को कुछ ऐसा उत्पन्न करने के लिए कहा जाएगा, जिसके लिए उसे शुरू में प्रोग्राम नहीं किया गया था, तो वह हमेशा प्राथमिकता के क्रम का पालन करेगा।
कंपनी का दावा है कि उसने मजबूती स्कोर में 63 प्रतिशत का सुधार देखा है। हालांकि, एक जोखिम यह भी है कि AI निम्नतम स्तर के निर्देशों को सुनने से इंकार कर सकता है। OpenAI के शोध पत्र में भविष्य में तकनीक को बेहतर बनाने के लिए कई सुधारों की रूपरेखा भी दी गई है। ध्यान के प्रमुख क्षेत्रों में से एक अन्य तौर-तरीकों जैसे कि छवियों या ऑडियो को संभालना है जिसमें इंजेक्ट किए गए निर्देश भी हो सकते हैं।