OpenAI Reportedly Used Data From YouTube Videos to Train GPT-4 AI Model
एक रिपोर्ट का दावा है कि OpenAI ने अपने नवीनतम आर्टिफिशियल इंटेलिजेंस (AI) मॉडल GPT-4 को प्रशिक्षित करने के लिए YouTube वीडियो से दस लाख घंटे से अधिक ट्रांसक्राइब किए गए डेटा का उपयोग किया हो सकता है। इसमें आगे कहा गया है कि ChatGPT निर्माता को YouTube के माध्यम से डेटा प्राप्त करने के लिए मजबूर होना पड़ा क्योंकि इसने अपने AI मॉडल को प्रशिक्षित करने के लिए टेक्स्ट-वर्ड संसाधनों की अपनी पूरी आपूर्ति समाप्त कर दी थी। अगर यह आरोप सच है, तो AI फर्म के लिए नई समस्याएँ पैदा हो सकती हैं जो पहले से ही कॉपीराइट किए गए डेटा का उपयोग करने के लिए कई मुकदमों से लड़ रही है। विशेष रूप से, पिछले महीने एक रिपोर्ट में बताया गया था कि इसके GPT स्टोर में मिनी चैटबॉट थे जो कंपनी के दिशानिर्देशों का उल्लंघन करते थे।
एक रिपोर्ट में, द न्यूयॉर्क टाइम्स ने दावा किया कि अपने AI मॉडल को प्रशिक्षित करने के लिए अद्वितीय टेक्स्ट शब्दों वाले स्रोत समाप्त होने के बाद, कंपनी ने व्हिस्पर नामक एक स्वचालित भाषण पहचान उपकरण विकसित किया, जिसका उपयोग YouTube वीडियो को ट्रांसक्राइब करने और डेटा का उपयोग करके अपने मॉडल को प्रशिक्षित करने के लिए किया जा सकता है। ओपनएआई ने सितंबर 2022 में व्हिस्पर को सार्वजनिक रूप से लॉन्च किया, और एआई फर्म ने कहा कि इसे “वेब से एकत्र किए गए बहुभाषी और मल्टीटास्क पर्यवेक्षित डेटा” के 6,80,000 घंटों पर प्रशिक्षित किया गया था।
रिपोर्ट में इस मामले से परिचित अज्ञात सूत्रों का हवाला देते हुए आगे आरोप लगाया गया है कि ओपनएआई के कर्मचारियों ने इस बात पर चर्चा की कि क्या यूट्यूब के डेटा का उपयोग करने से प्लेटफ़ॉर्म के दिशा-निर्देशों का उल्लंघन हो सकता है और उन्हें कानूनी परेशानी में डाला जा सकता है। उल्लेखनीय है कि Google उन अनुप्रयोगों के लिए वीडियो के उपयोग को प्रतिबंधित करता है जो प्लेटफ़ॉर्म से स्वतंत्र हैं।
रिपोर्ट के अनुसार, आखिरकार कंपनी ने योजना को आगे बढ़ाया और YouTube वीडियो के दस लाख से ज़्यादा घंटों को ट्रांसक्राइब किया और टेक्स्ट को GPT-4 में फीड किया गया। इसके अलावा, NYT की रिपोर्ट में यह भी आरोप लगाया गया है कि OpenAI के अध्यक्ष ग्रेग ब्रॉकमैन सीधे तौर पर इस प्रक्रिया में शामिल थे और उन्होंने व्यक्तिगत रूप से वीडियो से डेटा इकट्ठा करने में मदद की।
द वर्ज से बात करते हुए, ओपनएआई के प्रवक्ता मैट ब्रायंट ने रिपोर्ट को अपुष्ट बताया और ऐसी किसी भी गतिविधि से इनकार करते हुए कहा, “हमारी robots.txt फ़ाइलें और सेवा की शर्तें YouTube सामग्री की अनधिकृत स्क्रैपिंग या डाउनलोडिंग को प्रतिबंधित करती हैं।” एक अन्य प्रवक्ता, लिंडसे हेल्ड ने प्रकाशन को बताया कि यह अपने डेटा स्रोतों के रूप में “सार्वजनिक रूप से उपलब्ध डेटा और गैर-सार्वजनिक डेटा के लिए साझेदारी सहित कई स्रोतों” का उपयोग करता है। उन्होंने यह भी कहा कि एआई फर्म अपने भविष्य के एआई मॉडल को प्रशिक्षित करने के लिए सिंथेटिक डेटा का उपयोग करने की संभावना पर विचार कर रही थी।