A.I

OpenAI Unveils Sora, an AI-Powered Text-to-Video Generator Capable of Creating One-Minute-Long Clips

Biplab Das

August 19, 2024
1 min read

चैटजीपीटी के पीछे की कंपनी ओपनएआई ने गुरुवार को अपना पहला आर्टिफिशियल इंटेलिजेंस (एआई)-संचालित टेक्स्ट-टू-वीडियो जेनरेशन मॉडल सोरा पेश किया। कंपनी का दावा है कि यह 60 सेकंड तक के वीडियो बना सकता है। यह इस सेगमेंट में अपने किसी भी प्रतियोगी से ज़्यादा लंबा है, जिसमें Google का Lumiere भी शामिल है, जिसे पिछले महीने पेश किया गया था। सोरा वर्तमान में रेड टीमर्स, साइबर सुरक्षा विशेषज्ञों के लिए उपलब्ध है जो कंपनियों को अपने सॉफ़्टवेयर को बेहतर बनाने में मदद करने के लिए सॉफ़्टवेयर का बड़े पैमाने पर परीक्षण करते हैं, और कुछ कंटेंट क्रिएटर्स। एआई फर्म भविष्य में कोएलिशन फॉर कंटेंट प्रोवेंस एंड ऑथेंटिसिटी (C2PA) मेटाडेटा को शामिल करने की भी योजना बना रही है, जब मॉडल को ओपनएआई उत्पाद में तैनात किया जाएगा।

एआई वीडियो जनरेटर की घोषणा डाक एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर कंपनी ने कहा, “सोरा 60 सेकंड तक के वीडियो बना सकता है जिसमें अत्यधिक विस्तृत दृश्य, जटिल कैमरा गति और जीवंत भावनाओं वाले कई चरित्र शामिल हैं।” दिलचस्प बात यह है कि यह जिस वीडियो को बनाने का दावा करता है उसकी लंबाई उसके प्रतिद्वंद्वियों की तुलना में दस गुना अधिक है। Google का Lumiere 5 सेकंड लंबा वीडियो बना सकता है, जबकि Runway AI और Pika 1.0 क्रमशः 4 सेकंड और 3 सेकंड लंबा वीडियो बना सकते हैं।

संकेत: “30 वर्षीय अंतरिक्ष यात्री के साहसिक कारनामों को दर्शाने वाली एक फिल्म का ट्रेलर, जो लाल ऊन से बुना हुआ मोटरसाइकिल हेलमेट पहने हुए है, नीला आकाश, नमक का रेगिस्तान, सिनेमाई शैली, 35 मिमी फिल्म पर फिल्माया गया, ज्वलंत रंग।” pic.twitter.com/0JzpwPUGPB

— ओपनएआई (@OpenAI) 15 फ़रवरी, 2024

ओपनएआई और सीईओ सैम ऑल्टमैन के एक्स अकाउंट ने सोरा द्वारा बनाए गए कई वीडियो और उन्हें बनाने के लिए इस्तेमाल किए गए प्रॉम्प्ट भी शेयर किए। परिणामी वीडियो सहज गति के साथ अत्यधिक विस्तृत दिखाई देते हैं, कुछ ऐसा जो बाजार में अन्य वीडियो जनरेटर कुछ हद तक संघर्ष करते हैं। कंपनी के अनुसार, यह कई पात्रों, कई कैमरा कोणों, विशिष्ट प्रकार की गति और विषय और पृष्ठभूमि के सटीक विवरण के साथ जटिल दृश्य उत्पन्न कर सकता है। यह इसलिए संभव है क्योंकि टेक्स्ट-टू-वीडियो मॉडल प्रॉम्प्ट के साथ-साथ “भौतिक दुनिया में वे चीजें कैसे मौजूद हैं” दोनों का उपयोग करता है।

सोरा अनिवार्य रूप से एक प्रसार मॉडल है जो GPT मॉडल के समान ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है। इसी तरह, यह जो डेटा उपयोग करता है और उत्पन्न करता है उसे पैच नामक शब्द में दर्शाया जाता है, जो फिर से टेक्स्ट-जनरेटिंग मॉडल में टोकन के समान है। पैच वीडियो और छवियों का संग्रह है, जो कंपनी के अनुसार छोटे भागों में बंडल किए गए हैं। इस विज़ुअल डेटा का उपयोग करके OpenAI ने वीडियो जनरेशन मॉडल को विभिन्न अवधियों, रिज़ॉल्यूशन और पहलू अनुपातों में प्रशिक्षित करने में सक्षम बनाया। टेक्स्ट-टू-वीडियो जनरेशन के अलावा, सोरा एक स्थिर छवि भी ले सकता है और उससे एक वीडियो बना सकता है।

हालांकि, इसमें खामियां भी हैं। OpenAI ने अपनी वेबसाइट पर कहा, “मौजूदा मॉडल में कमज़ोरियाँ हैं। यह किसी जटिल दृश्य के भौतिकी को सटीक रूप से अनुकरण करने में संघर्ष कर सकता है, और कारण और प्रभाव के विशिष्ट उदाहरणों को समझ नहीं सकता है। उदाहरण के लिए, कोई व्यक्ति कुकी का एक टुकड़ा खा सकता है, लेकिन उसके बाद, कुकी पर काटने का निशान नहीं हो सकता है।”

संकेत: “एनिमेटेड दृश्य में पिघलती लाल मोमबत्ती के पास घुटनों के बल बैठे एक छोटे रोएँदार राक्षस का क्लोज़-अप दिखाया गया है। कला शैली 3डी और यथार्थवादी है, जिसमें प्रकाश और बनावट पर ध्यान केंद्रित किया गया है। पेंटिंग का मूड आश्चर्य और जिज्ञासा से भरा है, क्योंकि राक्षस लौ को देखता है … pic.twitter.com/aLMgJPI0y6

— ओपनएआई (@OpenAI) 15 फ़रवरी, 2024

यह सुनिश्चित करने के लिए कि AI टूल का उपयोग डीपफेक या अन्य हानिकारक सामग्री बनाने के लिए नहीं किया जाता है, कंपनी भ्रामक सामग्री का पता लगाने में मदद करने के लिए उपकरण बना रही है। हाल ही में अपने DALL-E 3 मॉडल के लिए अभ्यास अपनाने के बाद, यह उत्पन्न वीडियो में C2PA मेटाडेटा का उपयोग करने की भी योजना बना रही है। यह मॉडल को बेहतर बनाने के लिए रेड टीमर्स, विशेष रूप से गलत सूचना, घृणित सामग्री और पूर्वाग्रह के क्षेत्रों में डोमेन विशेषज्ञों के साथ भी काम कर रहा है।

वर्तमान में, यह उत्पाद के बारे में फीडबैक प्राप्त करने के लिए केवल रेड टीमर्स और कुछ दृश्य कलाकारों, डिजाइनरों और फिल्म निर्माताओं के लिए ही उपलब्ध है।

संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – विवरण के लिए हमारा नैतिकता वक्तव्य देखें।

Source link

Post Views: 34

OpenAI Unveils Sora, an AI-Powered Text-to-Video Generator Capable of Creating One-Minute-Long Clips

Biplab Das

Google Unveils Gemini 1.5, Meta Introduces Predictive Visual Machine Learning Model V-JEPA

Apple Said to Be Preparing AI Tool for Developers, to Compete With Microsoft’s GitHub Copilot

Leave a Reply Cancel reply

Live Results Search

Related Posts

Tags:

Google Unveils Gemini 1.5, Meta Introduces Predictive Visual Machine Learning Model V-JEPA

Apple Said to Be Preparing AI Tool for Developers, to Compete With Microsoft’s GitHub Copilot

Leave a Reply Cancel reply

Live Results Search

Related Posts

AI-पावर्ड हेल्थकेयर का उदय: कैसे प्रौद्योगिकी रोगी देखभाल में क्रांति ला रही है

Best artificial intelligence stocks

Sellers Rejoice: Amazon Unveils Link-Enabled AI Product Generation