OpenAI’s Transcription Tool Reportedly Adding Hallucinated Content in Medical Consultation Records
ओपनएआई ने 2022 में व्हिस्पर नामक एक कृत्रिम बुद्धिमत्ता (एआई) टूल जारी किया, जो भाषण को पाठ में स्थानांतरित कर सकता है। हालाँकि, एक रिपोर्ट में दावा किया गया है कि एआई टूल मतिभ्रम से ग्रस्त है और ट्रांसक्रिप्शन में काल्पनिक पाठ जोड़ रहा है। यह चिंताजनक है क्योंकि कहा जाता है कि इस उपकरण का उपयोग चिकित्सा और पहुंच जैसे कई उच्च जोखिम वाले उद्योगों में किया जाता है। कथित तौर पर एक विशेष चिंता डॉक्टर-रोगी परामर्श में उपकरण के उपयोग से आती है, जहां मतिभ्रम संभावित रूप से हानिकारक जानकारी जोड़ सकता है और रोगी के जीवन को खतरे में डाल सकता है।
ओपनएआई व्हिस्पर कथित तौर पर मतिभ्रम से ग्रस्त है
एसोसिएटेड प्रेस ने बताया कि ओपनएआई की स्वचालित वाक् पहचान (एएसआर) प्रणाली व्हिस्पर में मतिभ्रम वाले पाठ उत्पन्न करने की उच्च क्षमता है। कई सॉफ्टवेयर इंजीनियरों, डेवलपर्स और अकादमिक शोधकर्ताओं के साक्षात्कार का हवाला देते हुए, प्रकाशन ने दावा किया कि काल्पनिक पाठ में नस्लीय विवरण, हिंसा और चिकित्सा उपचार और दवाएं शामिल हैं।
एआई की भाषा में मतिभ्रम, एक प्रमुख मुद्दा है जिसके कारण एआई सिस्टम ऐसी प्रतिक्रियाएं उत्पन्न करता है जो गलत या भ्रामक होती हैं। व्हिस्पर के मामले में, कहा जाता है कि एआई ऐसे पाठ का आविष्कार कर रहा है जो कभी किसी के द्वारा नहीं बोला गया था।
प्रकाशन द्वारा सत्यापित एक उदाहरण में, वक्ता का वाक्य, “वह, वह लड़का, छाता लेने जा रहा था, मुझे ठीक-ठीक पता नहीं है।” इसे बदलकर “उसने क्रॉस का एक बड़ा टुकड़ा, एक छोटा, छोटा टुकड़ा लिया… मुझे यकीन है कि उसके पास आतंकवादी चाकू नहीं था इसलिए उसने कई लोगों को मार डाला।” एक अन्य उदाहरण में, व्हिस्पर ने कथित तौर पर बिना किसी उल्लेख के नस्लीय जानकारी जोड़ दी।
जबकि एआई क्षेत्र में मतिभ्रम कोई नई समस्या नहीं है, इस विशेष उपकरण का मुद्दा अधिक प्रभावशाली है क्योंकि ओपन-सोर्स तकनीक का उपयोग कई उपकरणों द्वारा किया जा रहा है जो उच्च जोखिम वाले उद्योगों में उपयोग किए जा रहे हैं। उदाहरण के लिए, पेरिस स्थित नाबला ने एक व्हिस्पर-आधारित उपकरण बनाया है जिसका उपयोग कथित तौर पर 30,000 से अधिक चिकित्सकों और 40 स्वास्थ्य प्रणालियों द्वारा किया जा रहा है।
नाबला के उपकरण का उपयोग सात मिलियन से अधिक चिकित्सा यात्राओं को लिखने के लिए किया गया है। डेटा सुरक्षा बनाए रखने के लिए कंपनी अपने सर्वर से मूल रिकॉर्डिंग भी हटा देती है। इसका मतलब यह है कि यदि इन सात मिलियन प्रतिलेखन में कोई मतिभ्रम पाठ उत्पन्न हुआ था, तो उन्हें सत्यापित करना और सही करना असंभव है।
एक अन्य क्षेत्र जहां प्रौद्योगिकी का उपयोग किया जा रहा है वह बधिर और कम सुनने वाले समुदाय के लिए पहुंच उपकरण बनाने में है, जहां फिर से, उपकरण की सटीकता को सत्यापित करना काफी कठिन है। ऐसा कहा जाता है कि अधिकांश मतिभ्रम पृष्ठभूमि शोर, अचानक रुकने और अन्य पर्यावरणीय ध्वनियों से उत्पन्न होता है।
मुद्दे की व्यापकता भी चिंताजनक है. एक शोधकर्ता का हवाला देते हुए, प्रकाशन ने दावा किया कि प्रत्येक 10 ऑडियो ट्रांसक्रिप्शन में से आठ में मतिभ्रम वाला पाठ पाया गया। एक डेवलपर ने प्रकाशन को बताया कि मतिभ्रम “व्हिस्पर के साथ बनाए गए 26,000 प्रतिलेखों में से प्रत्येक में हुआ।”
विशेष रूप से, व्हिस्पर के लॉन्च पर, ओपनएआई ने कहा कि व्हिस्पर उच्चारण, पृष्ठभूमि शोर और तकनीकी भाषा को मानव-स्तरीय मजबूती प्रदान करता है। कंपनी के एक प्रवक्ता ने प्रकाशन को बताया कि एआई फर्म लगातार मतिभ्रम को कम करने के तरीकों का अध्ययन करती है और भविष्य के मॉडल अपडेट में फीडबैक को शामिल करने का वादा किया है।