November 9, 2024
A.I

OpenAI Unveils Sora, an AI-Powered Text-to-Video Generator Capable of Creating One-Minute-Long Clips

  • August 19, 2024
  • 1 min read
OpenAI Unveils Sora, an AI-Powered Text-to-Video Generator Capable of Creating One-Minute-Long Clips

चैटजीपीटी के पीछे की कंपनी ओपनएआई ने गुरुवार को अपना पहला आर्टिफिशियल इंटेलिजेंस (एआई)-संचालित टेक्स्ट-टू-वीडियो जेनरेशन मॉडल सोरा पेश किया। कंपनी का दावा है कि यह 60 सेकंड तक के वीडियो बना सकता है। यह इस सेगमेंट में अपने किसी भी प्रतियोगी से ज़्यादा लंबा है, जिसमें Google का Lumiere भी शामिल है, जिसे पिछले महीने पेश किया गया था। सोरा वर्तमान में रेड टीमर्स, साइबर सुरक्षा विशेषज्ञों के लिए उपलब्ध है जो कंपनियों को अपने सॉफ़्टवेयर को बेहतर बनाने में मदद करने के लिए सॉफ़्टवेयर का बड़े पैमाने पर परीक्षण करते हैं, और कुछ कंटेंट क्रिएटर्स। एआई फर्म भविष्य में कोएलिशन फॉर कंटेंट प्रोवेंस एंड ऑथेंटिसिटी (C2PA) मेटाडेटा को शामिल करने की भी योजना बना रही है, जब मॉडल को ओपनएआई उत्पाद में तैनात किया जाएगा।

एआई वीडियो जनरेटर की घोषणा डाक एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर कंपनी ने कहा, “सोरा 60 सेकंड तक के वीडियो बना सकता है जिसमें अत्यधिक विस्तृत दृश्य, जटिल कैमरा गति और जीवंत भावनाओं वाले कई चरित्र शामिल हैं।” दिलचस्प बात यह है कि यह जिस वीडियो को बनाने का दावा करता है उसकी लंबाई उसके प्रतिद्वंद्वियों की तुलना में दस गुना अधिक है। Google का Lumiere 5 सेकंड लंबा वीडियो बना सकता है, जबकि Runway AI और Pika 1.0 क्रमशः 4 सेकंड और 3 सेकंड लंबा वीडियो बना सकते हैं।

ओपनएआई और सीईओ सैम ऑल्टमैन के एक्स अकाउंट ने सोरा द्वारा बनाए गए कई वीडियो और उन्हें बनाने के लिए इस्तेमाल किए गए प्रॉम्प्ट भी शेयर किए। परिणामी वीडियो सहज गति के साथ अत्यधिक विस्तृत दिखाई देते हैं, कुछ ऐसा जो बाजार में अन्य वीडियो जनरेटर कुछ हद तक संघर्ष करते हैं। कंपनी के अनुसार, यह कई पात्रों, कई कैमरा कोणों, विशिष्ट प्रकार की गति और विषय और पृष्ठभूमि के सटीक विवरण के साथ जटिल दृश्य उत्पन्न कर सकता है। यह इसलिए संभव है क्योंकि टेक्स्ट-टू-वीडियो मॉडल प्रॉम्प्ट के साथ-साथ “भौतिक दुनिया में वे चीजें कैसे मौजूद हैं” दोनों का उपयोग करता है।

सोरा अनिवार्य रूप से एक प्रसार मॉडल है जो GPT मॉडल के समान ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है। इसी तरह, यह जो डेटा उपयोग करता है और उत्पन्न करता है उसे पैच नामक शब्द में दर्शाया जाता है, जो फिर से टेक्स्ट-जनरेटिंग मॉडल में टोकन के समान है। पैच वीडियो और छवियों का संग्रह है, जो कंपनी के अनुसार छोटे भागों में बंडल किए गए हैं। इस विज़ुअल डेटा का उपयोग करके OpenAI ने वीडियो जनरेशन मॉडल को विभिन्न अवधियों, रिज़ॉल्यूशन और पहलू अनुपातों में प्रशिक्षित करने में सक्षम बनाया। टेक्स्ट-टू-वीडियो जनरेशन के अलावा, सोरा एक स्थिर छवि भी ले सकता है और उससे एक वीडियो बना सकता है।

हालांकि, इसमें खामियां भी हैं। OpenAI ने अपनी वेबसाइट पर कहा, “मौजूदा मॉडल में कमज़ोरियाँ हैं। यह किसी जटिल दृश्य के भौतिकी को सटीक रूप से अनुकरण करने में संघर्ष कर सकता है, और कारण और प्रभाव के विशिष्ट उदाहरणों को समझ नहीं सकता है। उदाहरण के लिए, कोई व्यक्ति कुकी का एक टुकड़ा खा सकता है, लेकिन उसके बाद, कुकी पर काटने का निशान नहीं हो सकता है।”

यह सुनिश्चित करने के लिए कि AI टूल का उपयोग डीपफेक या अन्य हानिकारक सामग्री बनाने के लिए नहीं किया जाता है, कंपनी भ्रामक सामग्री का पता लगाने में मदद करने के लिए उपकरण बना रही है। हाल ही में अपने DALL-E 3 मॉडल के लिए अभ्यास अपनाने के बाद, यह उत्पन्न वीडियो में C2PA मेटाडेटा का उपयोग करने की भी योजना बना रही है। यह मॉडल को बेहतर बनाने के लिए रेड टीमर्स, विशेष रूप से गलत सूचना, घृणित सामग्री और पूर्वाग्रह के क्षेत्रों में डोमेन विशेषज्ञों के साथ भी काम कर रहा है।

वर्तमान में, यह उत्पाद के बारे में फीडबैक प्राप्त करने के लिए केवल रेड टीमर्स और कुछ दृश्य कलाकारों, डिजाइनरों और फिल्म निर्माताओं के लिए ही उपलब्ध है।


संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – विवरण के लिए हमारा नैतिकता वक्तव्य देखें।



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *