A.I

OpenAI Adds a New ‘Instructional Hierarchy’ Protocol to Prevent Jailbreaking Incidents in GPT-4o Mini

Biplab Das

August 18, 2024
1 min read

OpenAI Adds a New ‘Instructional Hierarchy’ Protocol to Prevent Jailbreaking Incidents in GPT-4o Mini

ओपनएआई ने पिछले सप्ताह GPT-4o मिनी नामक एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जारी किया, जिसमें इसे हानिकारक उपयोग से बचाने के लिए नए सुरक्षा और सुरक्षा उपाय हैं। बड़े भाषा मॉडल (LLM) को इंस्ट्रक्शनल हाइरार्की नामक तकनीक से बनाया गया है, जो दुर्भावनापूर्ण प्रॉम्प्ट इंजीनियरों को AI मॉडल को जेलब्रेक करने से रोकेगा। कंपनी ने कहा कि यह तकनीक प्रॉम्प्ट इंजेक्शन और सिस्टम प्रॉम्प्ट एक्सट्रैक्शन जैसे मुद्दों के प्रति बढ़ी हुई प्रतिरोधक क्षमता भी दिखाएगी। कंपनी के अनुसार, नई विधि ने AI मॉडल के मजबूती स्कोर में 63 प्रतिशत सुधार किया है।

ओपनएआई ने एक नया सुरक्षा ढांचा तैयार किया

ऑनलाइन प्री-प्रिंट जर्नल (गैर-सहकर्मी-समीक्षित) arXiv में प्रकाशित एक शोध पत्र में, AI फर्म ने नई तकनीक और इसके काम करने के तरीके के बारे में बताया। इंस्ट्रक्शनल हाइरार्की को समझने के लिए, सबसे पहले जेलब्रेकिंग को समझाना ज़रूरी है। जेलब्रेकिंग एक विशेषाधिकार वृद्धि शोषण है जो सॉफ़्टवेयर में कुछ खामियों का उपयोग करके उसे ऐसी चीज़ें करने के लिए मजबूर करता है जिसके लिए उसे प्रोग्राम नहीं किया गया है।

चैटजीपीटी के शुरुआती दिनों में, कई लोगों ने एआई को मूल प्रोग्रामिंग को भूलने के लिए धोखा देकर आपत्तिजनक या हानिकारक टेक्स्ट बनाने का प्रयास किया। इस तरह के संकेत अक्सर “पिछले सभी निर्देशों को भूल जाओ और यह करो…” से शुरू होते थे। जबकि चैटजीपीटी वहां से बहुत आगे निकल गया है और दुर्भावनापूर्ण संकेत इंजीनियरिंग अधिक कठिन है, बुरे अभिनेता भी प्रयास में अधिक रणनीतिक हो गए हैं।

ओपनएआई अब उन समस्याओं से निपटने के लिए निर्देशात्मक पदानुक्रम तकनीक का उपयोग कर रहा है, जहाँ एआई मॉडल न केवल आपत्तिजनक पाठ या चित्र बनाता है, बल्कि हानिकारक सामग्री भी उत्पन्न करता है, जैसे कि रासायनिक विस्फोटक बनाने के तरीके या वेबसाइट को हैक करने के तरीके। सरल शब्दों में कहें तो यह तकनीक यह तय करती है कि जब विभिन्न प्राथमिकताओं के निर्देश आपस में टकराते हैं, तो मॉडल को कैसे व्यवहार करना चाहिए।

पदानुक्रमिक संरचना बनाकर, कंपनी अपने निर्देशों को सर्वोच्च प्राथमिकता पर रख सकती है, जिससे किसी भी त्वरित इंजीनियर के लिए इसे तोड़ना बहुत कठिन हो जाएगा, क्योंकि जब AI को कुछ ऐसा उत्पन्न करने के लिए कहा जाएगा, जिसके लिए उसे शुरू में प्रोग्राम नहीं किया गया था, तो वह हमेशा प्राथमिकता के क्रम का पालन करेगा।

कंपनी का दावा है कि उसने मजबूती स्कोर में 63 प्रतिशत का सुधार देखा है। हालांकि, एक जोखिम यह भी है कि AI निम्नतम स्तर के निर्देशों को सुनने से इंकार कर सकता है। OpenAI के शोध पत्र में भविष्य में तकनीक को बेहतर बनाने के लिए कई सुधारों की रूपरेखा भी दी गई है। ध्यान के प्रमुख क्षेत्रों में से एक अन्य तौर-तरीकों जैसे कि छवियों या ऑडियो को संभालना है जिसमें इंजेक्ट किए गए निर्देश भी हो सकते हैं।

Source link

Post Views: 25