Apple, Anthropic and Other AI Firms Have Reportedly Trained AI Models on Thousands of YouTube Videos
ऐप्पल, एंथ्रोपिक और अन्य प्रमुख कृत्रिम बुद्धिमत्ता (एआई) फर्मों ने कथित तौर पर सैकड़ों हजारों यूट्यूब वीडियो के डेटा पर एआई मॉडल को प्रशिक्षित किया है। एक नई रिपोर्ट में दावा किया गया है कि कई एआई कंपनियों ने पाइल नामक सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग किया जिसमें बिना किसी वीडियो इमेजरी के वीडियो के उपशीर्षक का सादा पाठ शामिल था। डेटा मिस्टरबीस्ट, मार्क्स ब्राउनली और प्यूडिपाई जैसे लोकप्रिय यूट्यूब क्रिएटर्स के साथ-साथ कैरीमिनाती, बीबी की वाइन्स और आशीष चंचलानी जैसे भारतीय यूट्यूब क्रिएटर्स से एकत्र किया गया था।
कथित तौर पर कई AI मॉडल को YouTube वीडियो पर प्रशिक्षित किया गया
प्रूफ़ न्यूज़ ने यह पता लगाने के लिए एक जांच की कि 48,000 से अधिक चैनलों से 1,73,536 YouTube वीडियो का उपशीर्षक डेटा लिया गया था। रिपोर्ट के अनुसार, एक गैर-लाभकारी एआई अनुसंधान प्रयोगशाला EleutherAI ने इस डेटासेट को क्यूरेट किया है। बाद में, इसका उपयोग Apple, Anthropic, Nvidia, Salesforce और अन्य कंपनियों द्वारा किया गया। विशेष रूप से, एआई लैब ने डेटासेट के विवरण पर प्रकाश डालते हुए एक शोध पत्र प्रकाशित किया।
EleutherAI ने पाइल नामक 800GB का एक डेटा रिपॉजिटरी बनाया और इसे उन लोगों के लिए सार्वजनिक रूप से उपलब्ध कराया जो AI मॉडल को प्रशिक्षित करना चाहते थे लेकिन बड़े डेटासेट नहीं खरीद सकते थे। अधिकांश डेटासेट सार्वजनिक रूप से उपलब्ध स्रोतों जैसे अंग्रेजी विकिपीडिया, ई-पुस्तकें और अन्य से लिया गया था। हालाँकि, इसमें YouTube उपशीर्षक नामक डेटासेट में संकलित सभी वीडियो के उपशीर्षक भी शामिल थे।
शोध पत्र के विवरण के आधार पर रिपोर्ट में दावा किया गया कि पाइल का उपयोग एप्पल के ओपनईएलएम एआई मॉडल को प्रशिक्षित करने के लिए किया गया था। सेल्सफोर्स, एनवीडिया और एंथ्रोपिक के एआई मॉडल के शोध पत्रों में भी कथित तौर पर डेटासेट के उपयोग का उल्लेख है।
एंथ्रोपिक प्रवक्ता जेनिफर मार्टिनेज ने एक बयान में प्रकाशन को बताया, “द पाइल में यूट्यूब उपशीर्षक का एक बहुत छोटा उपसमूह शामिल है। YouTube की शर्तें उसके प्लेटफ़ॉर्म के प्रत्यक्ष उपयोग को कवर करती हैं, जो पाइल डेटासेट के उपयोग से अलग है। YouTube की सेवा शर्तों के संभावित उल्लंघन के मुद्दे पर, हमें आपको पाइल लेखकों के पास भेजना होगा।”
विशेष रूप से, YouTube की सेवा की शर्तें किसी को भी रोबोट, बॉटनेट या स्क्रेपर्स जैसे स्वचालित साधनों का उपयोग करके प्लेटफ़ॉर्म पर वीडियो तक पहुंचने से रोकती हैं। YouTube उपशीर्षक स्क्रैपिंग श्रेणी में आएंगे। Google के एक प्रवक्ता ने ईमेल के जवाब में प्रूफ़ न्यूज़ को बताया कि टेक दिग्गज ने “अपमानजनक, अनधिकृत स्क्रैपिंग को रोकने के लिए वर्षों से कार्रवाई की है।” हालाँकि, AI फर्मों द्वारा डेटा के उपयोग के बारे में कोई टिप्पणी नहीं की गई।
एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, मार्केस ब्राउनली ने ऐप्पल को उन कंपनियों से डेटा सोर्स करने के लिए बुलाया, जिनमें उनके वीडियो के ट्रांस्क्रिप्ट शामिल थे, लेकिन उन्होंने यह भी बताया कि यह आईफोन निर्माता की गलती नहीं थी क्योंकि उन्होंने डेटा एकत्र नहीं किया था।
Apple ने अपने AI के लिए कई कंपनियों से डेटा प्राप्त किया है
उनमें से एक ने मेरे सहित यूट्यूब वीडियो से ढेर सारा डेटा/प्रतिलेख स्क्रैप कर लिया
Apple तकनीकी रूप से यहां “गलती” से बचता है क्योंकि वे स्क्रैपिंग नहीं कर रहे हैं
लेकिन यह लंबे समय तक एक उभरती हुई समस्या बनी रहेगी https://t.co/U93riaeSlY
– मार्क्स ब्राउनली (@MKBHD) 16 जुलाई 2024
जबकि यह डेटासेट सार्वजनिक रूप से एकत्र और वितरित किया गया था, YouTube जैसे प्लेटफ़ॉर्म पर डेटा स्क्रैपिंग के अन्य उदाहरण भी हो सकते हैं। एआई कंपनियां अपने बड़े भाषा मॉडल (एलएलएम) को प्रशिक्षित करने के लिए अधिक डेटा खोजने के लिए संघर्ष कर रही हैं, डेटा खरीद समान कानूनी रूप से ग्रे क्षेत्रों में प्रवेश करना जारी रख सकती है।