A.I

Apple, Anthropic and Other AI Firms Have Reportedly Trained AI Models on Thousands of YouTube Videos

ऐप्पल, एंथ्रोपिक और अन्य प्रमुख कृत्रिम बुद्धिमत्ता (एआई) फर्मों ने कथित तौर पर सैकड़ों हजारों यूट्यूब वीडियो के डेटा पर एआई मॉडल को प्रशिक्षित किया है। एक नई रिपोर्ट में दावा किया गया है कि कई एआई कंपनियों ने पाइल नामक सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग किया जिसमें बिना किसी वीडियो इमेजरी के वीडियो के उपशीर्षक का सादा पाठ शामिल था। डेटा मिस्टरबीस्ट, मार्क्स ब्राउनली और प्यूडिपाई जैसे लोकप्रिय यूट्यूब क्रिएटर्स के साथ-साथ कैरीमिनाती, बीबी की वाइन्स और आशीष चंचलानी जैसे भारतीय यूट्यूब क्रिएटर्स से एकत्र किया गया था।

कथित तौर पर कई AI मॉडल को YouTube वीडियो पर प्रशिक्षित किया गया

प्रूफ़ न्यूज़ ने यह पता लगाने के लिए एक जांच की कि 48,000 से अधिक चैनलों से 1,73,536 YouTube वीडियो का उपशीर्षक डेटा लिया गया था। रिपोर्ट के अनुसार, एक गैर-लाभकारी एआई अनुसंधान प्रयोगशाला EleutherAI ने इस डेटासेट को क्यूरेट किया है। बाद में, इसका उपयोग Apple, Anthropic, Nvidia, Salesforce और अन्य कंपनियों द्वारा किया गया। विशेष रूप से, एआई लैब ने डेटासेट के विवरण पर प्रकाश डालते हुए एक शोध पत्र प्रकाशित किया।

EleutherAI ने पाइल नामक 800GB का एक डेटा रिपॉजिटरी बनाया और इसे उन लोगों के लिए सार्वजनिक रूप से उपलब्ध कराया जो AI मॉडल को प्रशिक्षित करना चाहते थे लेकिन बड़े डेटासेट नहीं खरीद सकते थे। अधिकांश डेटासेट सार्वजनिक रूप से उपलब्ध स्रोतों जैसे अंग्रेजी विकिपीडिया, ई-पुस्तकें और अन्य से लिया गया था। हालाँकि, इसमें YouTube उपशीर्षक नामक डेटासेट में संकलित सभी वीडियो के उपशीर्षक भी शामिल थे।

शोध पत्र के विवरण के आधार पर रिपोर्ट में दावा किया गया कि पाइल का उपयोग एप्पल के ओपनईएलएम एआई मॉडल को प्रशिक्षित करने के लिए किया गया था। सेल्सफोर्स, एनवीडिया और एंथ्रोपिक के एआई मॉडल के शोध पत्रों में भी कथित तौर पर डेटासेट के उपयोग का उल्लेख है।

एंथ्रोपिक प्रवक्ता जेनिफर मार्टिनेज ने एक बयान में प्रकाशन को बताया, “द पाइल में यूट्यूब उपशीर्षक का एक बहुत छोटा उपसमूह शामिल है। YouTube की शर्तें उसके प्लेटफ़ॉर्म के प्रत्यक्ष उपयोग को कवर करती हैं, जो पाइल डेटासेट के उपयोग से अलग है। YouTube की सेवा शर्तों के संभावित उल्लंघन के मुद्दे पर, हमें आपको पाइल लेखकों के पास भेजना होगा।”

विशेष रूप से, YouTube की सेवा की शर्तें किसी को भी रोबोट, बॉटनेट या स्क्रेपर्स जैसे स्वचालित साधनों का उपयोग करके प्लेटफ़ॉर्म पर वीडियो तक पहुंचने से रोकती हैं। YouTube उपशीर्षक स्क्रैपिंग श्रेणी में आएंगे। Google के एक प्रवक्ता ने ईमेल के जवाब में प्रूफ़ न्यूज़ को बताया कि टेक दिग्गज ने “अपमानजनक, अनधिकृत स्क्रैपिंग को रोकने के लिए वर्षों से कार्रवाई की है।” हालाँकि, AI फर्मों द्वारा डेटा के उपयोग के बारे में कोई टिप्पणी नहीं की गई।

एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, मार्केस ब्राउनली ने ऐप्पल को उन कंपनियों से डेटा सोर्स करने के लिए बुलाया, जिनमें उनके वीडियो के ट्रांस्क्रिप्ट शामिल थे, लेकिन उन्होंने यह भी बताया कि यह आईफोन निर्माता की गलती नहीं थी क्योंकि उन्होंने डेटा एकत्र नहीं किया था।

जबकि यह डेटासेट सार्वजनिक रूप से एकत्र और वितरित किया गया था, YouTube जैसे प्लेटफ़ॉर्म पर डेटा स्क्रैपिंग के अन्य उदाहरण भी हो सकते हैं। एआई कंपनियां अपने बड़े भाषा मॉडल (एलएलएम) को प्रशिक्षित करने के लिए अधिक डेटा खोजने के लिए संघर्ष कर रही हैं, डेटा खरीद समान कानूनी रूप से ग्रे क्षेत्रों में प्रवेश करना जारी रख सकती है।



Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button