November 7, 2024
A.I

OpenAI Reportedly Used Data From YouTube Videos to Train GPT-4 AI Model

  • August 18, 2024
  • 1 min read
OpenAI Reportedly Used Data From YouTube Videos to Train GPT-4 AI Model

एक रिपोर्ट का दावा है कि OpenAI ने अपने नवीनतम आर्टिफिशियल इंटेलिजेंस (AI) मॉडल GPT-4 को प्रशिक्षित करने के लिए YouTube वीडियो से दस लाख घंटे से अधिक ट्रांसक्राइब किए गए डेटा का उपयोग किया हो सकता है। इसमें आगे कहा गया है कि ChatGPT निर्माता को YouTube के माध्यम से डेटा प्राप्त करने के लिए मजबूर होना पड़ा क्योंकि इसने अपने AI मॉडल को प्रशिक्षित करने के लिए टेक्स्ट-वर्ड संसाधनों की अपनी पूरी आपूर्ति समाप्त कर दी थी। अगर यह आरोप सच है, तो AI फर्म के लिए नई समस्याएँ पैदा हो सकती हैं जो पहले से ही कॉपीराइट किए गए डेटा का उपयोग करने के लिए कई मुकदमों से लड़ रही है। विशेष रूप से, पिछले महीने एक रिपोर्ट में बताया गया था कि इसके GPT स्टोर में मिनी चैटबॉट थे जो कंपनी के दिशानिर्देशों का उल्लंघन करते थे।

एक रिपोर्ट में, द न्यूयॉर्क टाइम्स ने दावा किया कि अपने AI मॉडल को प्रशिक्षित करने के लिए अद्वितीय टेक्स्ट शब्दों वाले स्रोत समाप्त होने के बाद, कंपनी ने व्हिस्पर नामक एक स्वचालित भाषण पहचान उपकरण विकसित किया, जिसका उपयोग YouTube वीडियो को ट्रांसक्राइब करने और डेटा का उपयोग करके अपने मॉडल को प्रशिक्षित करने के लिए किया जा सकता है। ओपनएआई ने सितंबर 2022 में व्हिस्पर को सार्वजनिक रूप से लॉन्च किया, और एआई फर्म ने कहा कि इसे “वेब से एकत्र किए गए बहुभाषी और मल्टीटास्क पर्यवेक्षित डेटा” के 6,80,000 घंटों पर प्रशिक्षित किया गया था।

रिपोर्ट में इस मामले से परिचित अज्ञात सूत्रों का हवाला देते हुए आगे आरोप लगाया गया है कि ओपनएआई के कर्मचारियों ने इस बात पर चर्चा की कि क्या यूट्यूब के डेटा का उपयोग करने से प्लेटफ़ॉर्म के दिशा-निर्देशों का उल्लंघन हो सकता है और उन्हें कानूनी परेशानी में डाला जा सकता है। उल्लेखनीय है कि Google उन अनुप्रयोगों के लिए वीडियो के उपयोग को प्रतिबंधित करता है जो प्लेटफ़ॉर्म से स्वतंत्र हैं।

रिपोर्ट के अनुसार, आखिरकार कंपनी ने योजना को आगे बढ़ाया और YouTube वीडियो के दस लाख से ज़्यादा घंटों को ट्रांसक्राइब किया और टेक्स्ट को GPT-4 में फीड किया गया। इसके अलावा, NYT की रिपोर्ट में यह भी आरोप लगाया गया है कि OpenAI के अध्यक्ष ग्रेग ब्रॉकमैन सीधे तौर पर इस प्रक्रिया में शामिल थे और उन्होंने व्यक्तिगत रूप से वीडियो से डेटा इकट्ठा करने में मदद की।

द वर्ज से बात करते हुए, ओपनएआई के प्रवक्ता मैट ब्रायंट ने रिपोर्ट को अपुष्ट बताया और ऐसी किसी भी गतिविधि से इनकार करते हुए कहा, “हमारी robots.txt फ़ाइलें और सेवा की शर्तें YouTube सामग्री की अनधिकृत स्क्रैपिंग या डाउनलोडिंग को प्रतिबंधित करती हैं।” एक अन्य प्रवक्ता, लिंडसे हेल्ड ने प्रकाशन को बताया कि यह अपने डेटा स्रोतों के रूप में “सार्वजनिक रूप से उपलब्ध डेटा और गैर-सार्वजनिक डेटा के लिए साझेदारी सहित कई स्रोतों” का उपयोग करता है। उन्होंने यह भी कहा कि एआई फर्म अपने भविष्य के एआई मॉडल को प्रशिक्षित करने के लिए सिंथेटिक डेटा का उपयोग करने की संभावना पर विचार कर रही थी।


संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – विवरण के लिए हमारा नैतिकता वक्तव्य देखें।

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *