OpenAI Unveils Sora, an AI-Powered Text-to-Video Generator Capable of Creating One-Minute-Long Clips
चैटजीपीटी के पीछे की कंपनी ओपनएआई ने गुरुवार को अपना पहला आर्टिफिशियल इंटेलिजेंस (एआई)-संचालित टेक्स्ट-टू-वीडियो जेनरेशन मॉडल सोरा पेश किया। कंपनी का दावा है कि यह 60 सेकंड तक के वीडियो बना सकता है। यह इस सेगमेंट में अपने किसी भी प्रतियोगी से ज़्यादा लंबा है, जिसमें Google का Lumiere भी शामिल है, जिसे पिछले महीने पेश किया गया था। सोरा वर्तमान में रेड टीमर्स, साइबर सुरक्षा विशेषज्ञों के लिए उपलब्ध है जो कंपनियों को अपने सॉफ़्टवेयर को बेहतर बनाने में मदद करने के लिए सॉफ़्टवेयर का बड़े पैमाने पर परीक्षण करते हैं, और कुछ कंटेंट क्रिएटर्स। एआई फर्म भविष्य में कोएलिशन फॉर कंटेंट प्रोवेंस एंड ऑथेंटिसिटी (C2PA) मेटाडेटा को शामिल करने की भी योजना बना रही है, जब मॉडल को ओपनएआई उत्पाद में तैनात किया जाएगा।
एआई वीडियो जनरेटर की घोषणा डाक एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर कंपनी ने कहा, “सोरा 60 सेकंड तक के वीडियो बना सकता है जिसमें अत्यधिक विस्तृत दृश्य, जटिल कैमरा गति और जीवंत भावनाओं वाले कई चरित्र शामिल हैं।” दिलचस्प बात यह है कि यह जिस वीडियो को बनाने का दावा करता है उसकी लंबाई उसके प्रतिद्वंद्वियों की तुलना में दस गुना अधिक है। Google का Lumiere 5 सेकंड लंबा वीडियो बना सकता है, जबकि Runway AI और Pika 1.0 क्रमशः 4 सेकंड और 3 सेकंड लंबा वीडियो बना सकते हैं।
संकेत: “30 वर्षीय अंतरिक्ष यात्री के साहसिक कारनामों को दर्शाने वाली एक फिल्म का ट्रेलर, जो लाल ऊन से बुना हुआ मोटरसाइकिल हेलमेट पहने हुए है, नीला आकाश, नमक का रेगिस्तान, सिनेमाई शैली, 35 मिमी फिल्म पर फिल्माया गया, ज्वलंत रंग।” pic.twitter.com/0JzpwPUGPB
— ओपनएआई (@OpenAI) 15 फ़रवरी, 2024
ओपनएआई और सीईओ सैम ऑल्टमैन के एक्स अकाउंट ने सोरा द्वारा बनाए गए कई वीडियो और उन्हें बनाने के लिए इस्तेमाल किए गए प्रॉम्प्ट भी शेयर किए। परिणामी वीडियो सहज गति के साथ अत्यधिक विस्तृत दिखाई देते हैं, कुछ ऐसा जो बाजार में अन्य वीडियो जनरेटर कुछ हद तक संघर्ष करते हैं। कंपनी के अनुसार, यह कई पात्रों, कई कैमरा कोणों, विशिष्ट प्रकार की गति और विषय और पृष्ठभूमि के सटीक विवरण के साथ जटिल दृश्य उत्पन्न कर सकता है। यह इसलिए संभव है क्योंकि टेक्स्ट-टू-वीडियो मॉडल प्रॉम्प्ट के साथ-साथ “भौतिक दुनिया में वे चीजें कैसे मौजूद हैं” दोनों का उपयोग करता है।
सोरा अनिवार्य रूप से एक प्रसार मॉडल है जो GPT मॉडल के समान ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है। इसी तरह, यह जो डेटा उपयोग करता है और उत्पन्न करता है उसे पैच नामक शब्द में दर्शाया जाता है, जो फिर से टेक्स्ट-जनरेटिंग मॉडल में टोकन के समान है। पैच वीडियो और छवियों का संग्रह है, जो कंपनी के अनुसार छोटे भागों में बंडल किए गए हैं। इस विज़ुअल डेटा का उपयोग करके OpenAI ने वीडियो जनरेशन मॉडल को विभिन्न अवधियों, रिज़ॉल्यूशन और पहलू अनुपातों में प्रशिक्षित करने में सक्षम बनाया। टेक्स्ट-टू-वीडियो जनरेशन के अलावा, सोरा एक स्थिर छवि भी ले सकता है और उससे एक वीडियो बना सकता है।
हालांकि, इसमें खामियां भी हैं। OpenAI ने अपनी वेबसाइट पर कहा, “मौजूदा मॉडल में कमज़ोरियाँ हैं। यह किसी जटिल दृश्य के भौतिकी को सटीक रूप से अनुकरण करने में संघर्ष कर सकता है, और कारण और प्रभाव के विशिष्ट उदाहरणों को समझ नहीं सकता है। उदाहरण के लिए, कोई व्यक्ति कुकी का एक टुकड़ा खा सकता है, लेकिन उसके बाद, कुकी पर काटने का निशान नहीं हो सकता है।”
संकेत: “एनिमेटेड दृश्य में पिघलती लाल मोमबत्ती के पास घुटनों के बल बैठे एक छोटे रोएँदार राक्षस का क्लोज़-अप दिखाया गया है। कला शैली 3डी और यथार्थवादी है, जिसमें प्रकाश और बनावट पर ध्यान केंद्रित किया गया है। पेंटिंग का मूड आश्चर्य और जिज्ञासा से भरा है, क्योंकि राक्षस लौ को देखता है … pic.twitter.com/aLMgJPI0y6
— ओपनएआई (@OpenAI) 15 फ़रवरी, 2024
यह सुनिश्चित करने के लिए कि AI टूल का उपयोग डीपफेक या अन्य हानिकारक सामग्री बनाने के लिए नहीं किया जाता है, कंपनी भ्रामक सामग्री का पता लगाने में मदद करने के लिए उपकरण बना रही है। हाल ही में अपने DALL-E 3 मॉडल के लिए अभ्यास अपनाने के बाद, यह उत्पन्न वीडियो में C2PA मेटाडेटा का उपयोग करने की भी योजना बना रही है। यह मॉडल को बेहतर बनाने के लिए रेड टीमर्स, विशेष रूप से गलत सूचना, घृणित सामग्री और पूर्वाग्रह के क्षेत्रों में डोमेन विशेषज्ञों के साथ भी काम कर रहा है।
वर्तमान में, यह उत्पाद के बारे में फीडबैक प्राप्त करने के लिए केवल रेड टीमर्स और कुछ दृश्य कलाकारों, डिजाइनरों और फिल्म निर्माताओं के लिए ही उपलब्ध है।