Apple, Anthropic and Other AI Firms Have Reportedly Trained AI Models on Thousands of YouTube Videos
Apple, Anthropic और अन्य प्रमुख आर्टिफिशियल इंटेलिजेंस (AI) फ़र्म ने कथित तौर पर सैकड़ों हज़ारों YouTube वीडियो के डेटा पर AI मॉडल को प्रशिक्षित किया है। एक नई रिपोर्ट में दावा किया गया है कि कई AI कंपनियों ने Pile नामक सार्वजनिक रूप से उपलब्ध डेटासेट का इस्तेमाल किया, जिसमें बिना किसी वीडियो इमेजरी के वीडियो के सबटाइटल का सादा टेक्स्ट शामिल था। यह डेटा MrBeast, Marques Brownlee और PewDiePie जैसे लोकप्रिय YouTube क्रिएटर्स के साथ-साथ कैरीमिनाटी, BB ki Vines और आशीष चंचलानी जैसे भारतीय YouTube क्रिएटर्स से एकत्र किया गया था।
कई AI मॉडल कथित तौर पर YouTube वीडियो पर प्रशिक्षित किए गए
प्रूफ न्यूज ने जांच करके पाया कि 1,73,536 YouTube वीडियो के सबटाइटल डेटा को 48,000 से ज़्यादा चैनलों से लिया गया था। रिपोर्ट के अनुसार, गैर-लाभकारी AI रिसर्च लैब EleutherAI ने इस डेटासेट को क्यूरेट किया। बाद में, इसका इस्तेमाल Apple, Anthropic, Nvidia, Salesforce और अन्य कंपनियों ने किया। उल्लेखनीय रूप से, AI लैब ने डेटासेट के विवरण पर प्रकाश डालते हुए एक शोध पत्र प्रकाशित किया।
EleutherAI ने 800GB का डेटा रिपॉजिटरी बनाया जिसे Pile नाम दिया गया और इसे उन लोगों के लिए सार्वजनिक रूप से उपलब्ध कराया जो AI मॉडल को प्रशिक्षित करना चाहते थे लेकिन बड़े डेटासेट खरीदने में असमर्थ थे। डेटासेट का अधिकांश हिस्सा सार्वजनिक रूप से उपलब्ध स्रोतों जैसे कि अंग्रेजी विकिपीडिया, ई-बुक्स और अन्य से लिया गया था। हालाँकि, इसमें YouTube सबटाइटल्स नामक डेटासेट में संकलित सभी वीडियो के सबटाइटल भी शामिल थे।
रिपोर्ट में दावा किया गया है कि शोध पत्र के विवरण के आधार पर, पाइल का उपयोग Apple के OpenELM AI मॉडल को प्रशिक्षित करने के लिए किया गया था। Salesforce, Nvidia और Anthropic के AI मॉडल के शोध पत्रों में भी कथित तौर पर डेटासेट के उपयोग का उल्लेख किया गया है।
एंथ्रोपिक के प्रवक्ता जेनिफर मार्टिनेज ने एक बयान में प्रकाशन को बताया, “पाइल में YouTube उपशीर्षकों का एक बहुत छोटा सा उपसमूह शामिल है। YouTube की शर्तें इसके प्लेटफ़ॉर्म के प्रत्यक्ष उपयोग को कवर करती हैं, जो पाइल डेटासेट के उपयोग से अलग है। YouTube की सेवा की शर्तों के संभावित उल्लंघन के बारे में, हमें आपको पाइल लेखकों के पास भेजना होगा।”
उल्लेखनीय रूप से, YouTube की सेवा की शर्तें किसी को भी रोबोट, बॉटनेट या स्क्रैपर जैसे स्वचालित साधनों का उपयोग करके प्लेटफ़ॉर्म पर वीडियो तक पहुँचने से रोकती हैं। YouTube उपशीर्षक स्क्रैपिंग श्रेणी में आएंगे। Google के प्रवक्ता ने एक ईमेल प्रतिक्रिया में Proof News को बताया कि तकनीकी दिग्गज ने “अपमानजनक, अनधिकृत स्क्रैपिंग को रोकने के लिए वर्षों से कार्रवाई की है।” हालाँकि, AI फ़र्म द्वारा डेटा के उपयोग के बारे में कोई टिप्पणी नहीं की गई।
एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, मार्केस ब्राउनली ने एप्पल पर उन कंपनियों से डेटा प्राप्त करने का आरोप लगाया, जिनमें उनके वीडियो की प्रतिलिपियां शामिल थीं, लेकिन उन्होंने यह भी रेखांकित किया कि यह आईफोन निर्माता की गलती नहीं थी, क्योंकि उन्होंने डेटा एकत्र नहीं किया था।
एप्पल ने अपने AI के लिए डेटा कई कंपनियों से प्राप्त किया है
उनमें से एक ने यूट्यूब वीडियो से ढेर सारा डेटा/ट्रांसक्रिप्ट चुरा लिया, जिसमें मेरा भी वीडियो शामिल था
तकनीकी रूप से एप्पल यहां “गलती” से बचता है क्योंकि वे स्क्रैपिंग करने वाले नहीं हैं
लेकिन यह एक लम्बे समय तक चलने वाली समस्या बनी रहेगी https://t.co/U93riaeSlY
— मार्क्स ब्राउनली (@MKBHD) 16 जुलाई, 2024
जबकि यह डेटासेट सार्वजनिक रूप से एकत्र और वितरित किया गया था, YouTube जैसे प्लेटफ़ॉर्म पर डेटा स्क्रैपिंग के अन्य उदाहरण हो सकते हैं। एआई फ़र्मों द्वारा अपने बड़े भाषा मॉडल (LLM) को प्रशिक्षित करने के लिए अधिक डेटा खोजने के लिए संघर्ष करने के साथ, डेटा खरीद इसी तरह के कानूनी रूप से ग्रे क्षेत्रों में प्रवेश करना जारी रख सकती है।