November 7, 2024
A.I

Apple, Anthropic and Other AI Firms Have Reportedly Trained AI Models on Thousands of YouTube Videos

  • August 18, 2024
  • 1 min read
Apple, Anthropic and Other AI Firms Have Reportedly Trained AI Models on Thousands of YouTube Videos

Apple, Anthropic और अन्य प्रमुख आर्टिफिशियल इंटेलिजेंस (AI) फ़र्म ने कथित तौर पर सैकड़ों हज़ारों YouTube वीडियो के डेटा पर AI मॉडल को प्रशिक्षित किया है। एक नई रिपोर्ट में दावा किया गया है कि कई AI कंपनियों ने Pile नामक सार्वजनिक रूप से उपलब्ध डेटासेट का इस्तेमाल किया, जिसमें बिना किसी वीडियो इमेजरी के वीडियो के सबटाइटल का सादा टेक्स्ट शामिल था। यह डेटा MrBeast, Marques Brownlee और PewDiePie जैसे लोकप्रिय YouTube क्रिएटर्स के साथ-साथ कैरीमिनाटी, BB ki Vines और आशीष चंचलानी जैसे भारतीय YouTube क्रिएटर्स से एकत्र किया गया था।

कई AI मॉडल कथित तौर पर YouTube वीडियो पर प्रशिक्षित किए गए

प्रूफ न्यूज ने जांच करके पाया कि 1,73,536 YouTube वीडियो के सबटाइटल डेटा को 48,000 से ज़्यादा चैनलों से लिया गया था। रिपोर्ट के अनुसार, गैर-लाभकारी AI रिसर्च लैब EleutherAI ने इस डेटासेट को क्यूरेट किया। बाद में, इसका इस्तेमाल Apple, Anthropic, Nvidia, Salesforce और अन्य कंपनियों ने किया। उल्लेखनीय रूप से, AI लैब ने डेटासेट के विवरण पर प्रकाश डालते हुए एक शोध पत्र प्रकाशित किया।

EleutherAI ने 800GB का डेटा रिपॉजिटरी बनाया जिसे Pile नाम दिया गया और इसे उन लोगों के लिए सार्वजनिक रूप से उपलब्ध कराया जो AI मॉडल को प्रशिक्षित करना चाहते थे लेकिन बड़े डेटासेट खरीदने में असमर्थ थे। डेटासेट का अधिकांश हिस्सा सार्वजनिक रूप से उपलब्ध स्रोतों जैसे कि अंग्रेजी विकिपीडिया, ई-बुक्स और अन्य से लिया गया था। हालाँकि, इसमें YouTube सबटाइटल्स नामक डेटासेट में संकलित सभी वीडियो के सबटाइटल भी शामिल थे।

रिपोर्ट में दावा किया गया है कि शोध पत्र के विवरण के आधार पर, पाइल का उपयोग Apple के OpenELM AI मॉडल को प्रशिक्षित करने के लिए किया गया था। Salesforce, Nvidia और Anthropic के AI मॉडल के शोध पत्रों में भी कथित तौर पर डेटासेट के उपयोग का उल्लेख किया गया है।

एंथ्रोपिक के प्रवक्ता जेनिफर मार्टिनेज ने एक बयान में प्रकाशन को बताया, “पाइल में YouTube उपशीर्षकों का एक बहुत छोटा सा उपसमूह शामिल है। YouTube की शर्तें इसके प्लेटफ़ॉर्म के प्रत्यक्ष उपयोग को कवर करती हैं, जो पाइल डेटासेट के उपयोग से अलग है। YouTube की सेवा की शर्तों के संभावित उल्लंघन के बारे में, हमें आपको पाइल लेखकों के पास भेजना होगा।”

उल्लेखनीय रूप से, YouTube की सेवा की शर्तें किसी को भी रोबोट, बॉटनेट या स्क्रैपर जैसे स्वचालित साधनों का उपयोग करके प्लेटफ़ॉर्म पर वीडियो तक पहुँचने से रोकती हैं। YouTube उपशीर्षक स्क्रैपिंग श्रेणी में आएंगे। Google के प्रवक्ता ने एक ईमेल प्रतिक्रिया में Proof News को बताया कि तकनीकी दिग्गज ने “अपमानजनक, अनधिकृत स्क्रैपिंग को रोकने के लिए वर्षों से कार्रवाई की है।” हालाँकि, AI फ़र्म द्वारा डेटा के उपयोग के बारे में कोई टिप्पणी नहीं की गई।

एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, मार्केस ब्राउनली ने एप्पल पर उन कंपनियों से डेटा प्राप्त करने का आरोप लगाया, जिनमें उनके वीडियो की प्रतिलिपियां शामिल थीं, लेकिन उन्होंने यह भी रेखांकित किया कि यह आईफोन निर्माता की गलती नहीं थी, क्योंकि उन्होंने डेटा एकत्र नहीं किया था।

जबकि यह डेटासेट सार्वजनिक रूप से एकत्र और वितरित किया गया था, YouTube जैसे प्लेटफ़ॉर्म पर डेटा स्क्रैपिंग के अन्य उदाहरण हो सकते हैं। एआई फ़र्मों द्वारा अपने बड़े भाषा मॉडल (LLM) को प्रशिक्षित करने के लिए अधिक डेटा खोजने के लिए संघर्ष करने के साथ, डेटा खरीद इसी तरह के कानूनी रूप से ग्रे क्षेत्रों में प्रवेश करना जारी रख सकती है।



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *