OpenAI Previews ‘Voice Engine’ Audio Tool That Can Clone Human Voices With 15 Seconds of Audio
ओपनएआई एक ऐसे फीचर के लिए परीक्षण के शुरुआती नतीजे साझा कर रहा है जो शब्दों को एक विश्वसनीय मानवीय आवाज़ में पढ़ सकता है – जो कृत्रिम बुद्धिमत्ता के लिए एक नए मोर्चे को उजागर करता है और डीपफेक जोखिमों की आशंका को बढ़ाता है। कंपनी वॉयस इंजन नामक टेक्स्ट-टू-स्पीच मॉडल के छोटे पैमाने के पूर्वावलोकन से शुरुआती डेमो और उपयोग के मामले साझा कर रही है, जिसे उसने अब तक लगभग 10 डेवलपर्स के साथ साझा किया है, एक प्रवक्ता ने कहा। ओपनएआई ने इस फीचर को व्यापक रूप से रोलआउट न करने का फैसला किया, जिसके बारे में उसने इस महीने की शुरुआत में पत्रकारों को जानकारी दी।
ओपनएआई के प्रवक्ता ने कहा कि कंपनी ने नीति निर्माताओं, उद्योग विशेषज्ञों, शिक्षकों और रचनात्मक लोगों जैसे हितधारकों से प्रतिक्रिया प्राप्त करने के बाद रिलीज़ को कम करने का फैसला किया। पहले की प्रेस ब्रीफिंग के अनुसार, कंपनी ने शुरू में एक आवेदन प्रक्रिया के माध्यम से 100 डेवलपर्स को टूल जारी करने की योजना बनाई थी।
कंपनी ने शुक्रवार को एक ब्लॉग पोस्ट में लिखा, “हम मानते हैं कि लोगों की आवाज़ से मिलते-जुलते भाषण तैयार करने में गंभीर जोखिम हैं, जो चुनावी साल में खास तौर पर ध्यान देने वाली बात है।” “हम सरकार, मीडिया, मनोरंजन, शिक्षा, नागरिक समाज और उससे परे के क्षेत्रों से अमेरिकी और अंतरराष्ट्रीय भागीदारों के साथ जुड़ रहे हैं ताकि यह सुनिश्चित किया जा सके कि हम निर्माण करते समय उनकी प्रतिक्रिया को शामिल कर रहे हैं।”
कुछ संदर्भों में नकली आवाज़ों के लिए पहले से ही अन्य AI तकनीक का इस्तेमाल किया जा चुका है। जनवरी में, राष्ट्रपति जो बिडेन की ओर से एक फ़र्जी लेकिन यथार्थवादी लगने वाले फ़ोन कॉल ने न्यू हैम्पशायर के लोगों को प्राइमरी में वोट न देने के लिए प्रोत्साहित किया – एक ऐसी घटना जिसने महत्वपूर्ण वैश्विक चुनावों से पहले AI के डर को बढ़ा दिया।
ऑडियो सामग्री बनाने के ओपनएआई के पिछले प्रयासों के विपरीत, वॉयस इंजन ऐसी आवाज़ बना सकता है जो अलग-अलग लोगों की आवाज़ की तरह लगे, उनकी विशिष्ट ताल और स्वर के साथ। किसी व्यक्ति की आवाज़ को फिर से बनाने के लिए सॉफ़्टवेयर को सिर्फ़ 15 सेकंड के रिकॉर्ड किए गए ऑडियो की ज़रूरत होती है।
उपकरण के प्रदर्शन के दौरान, ब्लूमबर्ग ने ओपनएआई के मुख्य कार्यकारी अधिकारी सैम ऑल्टमैन की एक क्लिप सुनी, जिसमें वे संक्षेप में तकनीक के बारे में बता रहे थे। उनकी आवाज उनकी वास्तविक आवाज से अलग नहीं लग रही थी, लेकिन पूरी तरह से एआई द्वारा उत्पन्न थी।
ओपनएआई के उत्पाद प्रमुख जेफ हैरिस ने कहा, “यदि आपके पास सही ऑडियो सेटअप है, तो यह मूल रूप से एक मानवीय क्षमता वाली आवाज़ है।” “यह एक बहुत ही प्रभावशाली तकनीकी गुणवत्ता है।” हालांकि, हैरिस ने कहा, “वास्तव में मानवीय भाषण की सटीक नकल करने की क्षमता के आसपास स्पष्ट रूप से बहुत सारी सुरक्षा नाजुकता है।”
ओपनएआई के वर्तमान डेवलपर भागीदारों में से एक, जो इस टूल का उपयोग कर रहा है, गैर-लाभकारी स्वास्थ्य प्रणाली लाइफस्पैन में नॉर्मन प्रिंस न्यूरोसाइंसेज इंस्टीट्यूट, रोगियों को उनकी आवाज़ वापस पाने में मदद करने के लिए तकनीक का उपयोग कर रहा है। उदाहरण के लिए, टूल का उपयोग एक युवा रोगी की आवाज़ को बहाल करने के लिए किया गया था, जो एक स्कूल प्रोजेक्ट के लिए पहले की रिकॉर्डिंग से उसके भाषण की नकल करके ब्रेन ट्यूमर के कारण स्पष्ट रूप से बोलने की क्षमता खो चुकी थी, कंपनी ब्लॉग पोस्ट ने कहा।
ओपनएआई का कस्टम स्पीच मॉडल अपने द्वारा उत्पन्न ऑडियो को विभिन्न भाषाओं में भी अनुवादित कर सकता है। यह इसे ऑडियो व्यवसाय में स्पॉटिफ़ाई टेक्नोलॉजी एसए जैसी कंपनियों के लिए उपयोगी बनाता है। स्पॉटिफ़ाई ने पहले ही लेक्स फ्रिडमैन जैसे लोकप्रिय होस्ट के पॉडकास्ट का अनुवाद करने के लिए अपने स्वयं के पायलट कार्यक्रम में इस तकनीक का उपयोग किया है। ओपनएआई ने तकनीक के अन्य लाभकारी अनुप्रयोगों का भी प्रचार किया, जैसे कि बच्चों के लिए शैक्षिक सामग्री के लिए आवाज़ों की एक विस्तृत श्रृंखला बनाना।
परीक्षण कार्यक्रम में, OpenAI अपने भागीदारों से इसकी उपयोग नीतियों से सहमत होने, उनकी आवाज़ का उपयोग करने से पहले मूल वक्ता से सहमति प्राप्त करने और श्रोताओं को यह बताने की अपेक्षा कर रहा है कि वे जो आवाज़ें सुन रहे हैं, वे AI द्वारा उत्पन्न हैं। कंपनी एक अश्रव्य ऑडियो वॉटरमार्क भी स्थापित कर रही है ताकि यह पता लगाया जा सके कि ऑडियो का कोई भाग उसके उपकरण द्वारा बनाया गया है या नहीं।
ओपनएआई ने कहा कि इस सुविधा को अधिक व्यापक रूप से जारी करने का निर्णय लेने से पहले वह बाहरी विशेषज्ञों से प्रतिक्रिया मांग रहा है। कंपनी ने ब्लॉग पोस्ट में कहा, “यह महत्वपूर्ण है कि दुनिया भर के लोग समझें कि यह तकनीक किस दिशा में जा रही है, चाहे हम इसे अंततः व्यापक रूप से लागू करें या नहीं।”
ओपनएआई ने यह भी लिखा कि उसे उम्मीद है कि उसके सॉफ्टवेयर का पूर्वावलोकन अधिक उन्नत एआई प्रौद्योगिकियों द्वारा लाई गई चुनौतियों के खिलाफ “सामाजिक लचीलापन बढ़ाने की आवश्यकता को प्रेरित करेगा”। उदाहरण के लिए, कंपनी ने बैंकों से बैंक खातों और संवेदनशील जानकारी तक पहुँचने के लिए सुरक्षा उपाय के रूप में वॉयस ऑथेंटिकेशन को चरणबद्ध तरीके से समाप्त करने का आह्वान किया। यह भ्रामक एआई सामग्री के बारे में सार्वजनिक शिक्षा और ऑडियो सामग्री वास्तविक है या एआई द्वारा उत्पन्न है, इसका पता लगाने के लिए तकनीकों के अधिक विकास की भी मांग कर रहा है।
© 2024 ब्लूमबर्ग एल.पी.
(यह कहानी एनडीटीवी स्टाफ द्वारा संपादित नहीं की गई है और एक सिंडिकेटेड फीड से स्वतः उत्पन्न होती है।)