November 23, 2024
A.I

OpenAI Adds a New ‘Instructional Hierarchy’ Protocol to Prevent Jailbreaking Incidents in GPT-4o Mini

  • August 18, 2024
  • 1 min read
OpenAI Adds a New ‘Instructional Hierarchy’ Protocol to Prevent Jailbreaking Incidents in GPT-4o Mini

ओपनएआई ने पिछले सप्ताह GPT-4o मिनी नामक एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जारी किया, जिसमें इसे हानिकारक उपयोग से बचाने के लिए नए सुरक्षा और सुरक्षा उपाय हैं। बड़े भाषा मॉडल (LLM) को इंस्ट्रक्शनल हाइरार्की नामक तकनीक से बनाया गया है, जो दुर्भावनापूर्ण प्रॉम्प्ट इंजीनियरों को AI मॉडल को जेलब्रेक करने से रोकेगा। कंपनी ने कहा कि यह तकनीक प्रॉम्प्ट इंजेक्शन और सिस्टम प्रॉम्प्ट एक्सट्रैक्शन जैसे मुद्दों के प्रति बढ़ी हुई प्रतिरोधक क्षमता भी दिखाएगी। कंपनी के अनुसार, नई विधि ने AI मॉडल के मजबूती स्कोर में 63 प्रतिशत सुधार किया है।

ओपनएआई ने एक नया सुरक्षा ढांचा तैयार किया

ऑनलाइन प्री-प्रिंट जर्नल (गैर-सहकर्मी-समीक्षित) arXiv में प्रकाशित एक शोध पत्र में, AI फर्म ने नई तकनीक और इसके काम करने के तरीके के बारे में बताया। इंस्ट्रक्शनल हाइरार्की को समझने के लिए, सबसे पहले जेलब्रेकिंग को समझाना ज़रूरी है। जेलब्रेकिंग एक विशेषाधिकार वृद्धि शोषण है जो सॉफ़्टवेयर में कुछ खामियों का उपयोग करके उसे ऐसी चीज़ें करने के लिए मजबूर करता है जिसके लिए उसे प्रोग्राम नहीं किया गया है।

चैटजीपीटी के शुरुआती दिनों में, कई लोगों ने एआई को मूल प्रोग्रामिंग को भूलने के लिए धोखा देकर आपत्तिजनक या हानिकारक टेक्स्ट बनाने का प्रयास किया। इस तरह के संकेत अक्सर “पिछले सभी निर्देशों को भूल जाओ और यह करो…” से शुरू होते थे। जबकि चैटजीपीटी वहां से बहुत आगे निकल गया है और दुर्भावनापूर्ण संकेत इंजीनियरिंग अधिक कठिन है, बुरे अभिनेता भी प्रयास में अधिक रणनीतिक हो गए हैं।

ओपनएआई अब उन समस्याओं से निपटने के लिए निर्देशात्मक पदानुक्रम तकनीक का उपयोग कर रहा है, जहाँ एआई मॉडल न केवल आपत्तिजनक पाठ या चित्र बनाता है, बल्कि हानिकारक सामग्री भी उत्पन्न करता है, जैसे कि रासायनिक विस्फोटक बनाने के तरीके या वेबसाइट को हैक करने के तरीके। सरल शब्दों में कहें तो यह तकनीक यह तय करती है कि जब विभिन्न प्राथमिकताओं के निर्देश आपस में टकराते हैं, तो मॉडल को कैसे व्यवहार करना चाहिए।

पदानुक्रमिक संरचना बनाकर, कंपनी अपने निर्देशों को सर्वोच्च प्राथमिकता पर रख सकती है, जिससे किसी भी त्वरित इंजीनियर के लिए इसे तोड़ना बहुत कठिन हो जाएगा, क्योंकि जब AI को कुछ ऐसा उत्पन्न करने के लिए कहा जाएगा, जिसके लिए उसे शुरू में प्रोग्राम नहीं किया गया था, तो वह हमेशा प्राथमिकता के क्रम का पालन करेगा।

कंपनी का दावा है कि उसने मजबूती स्कोर में 63 प्रतिशत का सुधार देखा है। हालांकि, एक जोखिम यह भी है कि AI निम्नतम स्तर के निर्देशों को सुनने से इंकार कर सकता है। OpenAI के शोध पत्र में भविष्य में तकनीक को बेहतर बनाने के लिए कई सुधारों की रूपरेखा भी दी गई है। ध्यान के प्रमुख क्षेत्रों में से एक अन्य तौर-तरीकों जैसे कि छवियों या ऑडियो को संभालना है जिसमें इंजेक्ट किए गए निर्देश भी हो सकते हैं।

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *