Odyssey Building ‘Hollywood-Grade’ AI Text-to-Video Model to Compete With Sora, Gen-3 Alpha
पिछले साल स्थापित आर्टिफिशियल इंटेलिजेंस (AI) स्टार्टअप ओडिसी ने सोमवार को अपने पहले AI उत्पाद के बारे में जानकारी साझा की। फर्म ने खुलासा किया कि वह एक AI वीडियो मॉडल बना रही है जो हॉलीवुड-ग्रेड विज़ुअल इफ़ेक्ट बना सकता है, ठीक वैसे ही जैसे OpenAI का सोरा टूल जिसे कंपनी द्वारा अभी जारी किया जाना है। ओडिसी के सह-संस्थापक का कहना है कि AI मॉडल उपयोगकर्ताओं को आउटपुट को बारीक स्तर पर संपादित और नियंत्रित करने देगा, साथ ही उन्होंने कहा कि फर्म आउटपुट वीडियो की विभिन्न परतों को उत्पन्न करने के लिए कई बड़े भाषा मॉडल (LLM) के साथ काम कर रही है, जिन्हें अलग-अलग नियंत्रित किया जा सकता है।
ओडिसी का एआई विज़ुअल मॉडल कैसे काम करता है
एक्स (पूर्व में ट्विटर) पर पोस्ट की एक श्रृंखला में ओडिसी के सीईओ और सह-संस्थापक ओलिवर कैमरन ने कहा कि एआई स्टार्टअप ने गूगल वेंचर्स के नेतृत्व में अपने सीड राउंड फंडिंग में $ 9 मिलियन (लगभग 75.1 करोड़ रुपये) जुटाए थे और वर्तमान में एक ऐसा टूल बना रहा था जो उच्च गुणवत्ता वाला वीडियो प्रदान करेगा जिसे उपयोगकर्ताओं द्वारा अनुकूलित और संपादित किया जा सकता है।
कैमरून ने ओडिसी की एआई तकनीक के बारे में भी जानकारी साझा की और दावा किया कि इसे “हॉलीवुड-ग्रेड” वीडियो बनाने के लिए डिज़ाइन किया गया था। कार्यकारी ने यह भी कहा कि स्टार्टअप उपयोगकर्ताओं को “दृश्य कहानी कहने की मुख्य परतों पर पूर्ण नियंत्रण” लेने के लिए चार जनरेटिव मॉडल का प्रशिक्षण दे रहा था।
व्यक्तिगत रूप से, प्रत्येक मॉडल आपको अपने दृश्य की बारीकियों को सटीक रूप से कॉन्फ़िगर करने में सक्षम करेगा।
संयुक्त रूप से, ये मॉडल वीडियो या दृश्य उत्पन्न करेंगे, लेकिन बिल्कुल वैसे ही जैसे आप चाहते थे।
इससे भी आगे बढ़ते हुए, हमारे मॉडल आउटपुट हॉलीवुड और अन्य स्थानों पर उपयोग में आने वाली मौजूदा पाइपलाइनों में एकीकृत हो जाते हैं। pic.twitter.com/jHZoevLV9n
— ओलिवर कैमरून (@olivercameron) 8 जुलाई, 2024
कैमरून ने मौजूदा एआई टेक्स्ट-टू-वीडियो मॉडल में समस्या को उजागर किया, जो आउटपुट को नियंत्रित या संपादित करने के लिए उपकरणों या विकल्पों की कमी है। “एक कहानीकार के रूप में, आपके पास अपने परिवेश या पात्रों को निर्देशित करने या अपने शॉट के बारीक विवरणों को तब तक दोहराने की बहुत कम क्षमता होती है जब तक कि यह बिल्कुल सही न हो जाए। अधिक शक्तिशाली मॉडल की आवश्यकता है,” उन्होंने कहा।
समस्या को हल करने के लिए, कंपनी कई AI मॉडल का उपयोग कर रही है जो समग्र वीडियो की एक परत उत्पन्न करेंगे। कैमरून के अनुसार, चार मॉडल स्वतंत्र रूप से ज्यामिति, सामग्री, प्रकाश व्यवस्था और गति उत्पन्न करेंगे। ये चार परतें एक ही टेक्स्ट प्रॉम्प्ट के आधार पर एक साथ उत्पन्न होंगी और फिर अंतिम वीडियो प्रस्तुत करने के लिए संयुक्त होंगी।
कंपनी का दावा है कि उपयोगकर्ताओं के पास आउटपुट पर अधिक नियंत्रण के लिए प्रत्येक परत को अलग से कॉन्फ़िगर करने का विकल्प होगा। ओडिसी अपने वीडियो आउटपुट को मौजूदा हॉलीवुड टूल और सिस्टम में एकीकृत करेगा जिसका उपयोग दृश्य प्रभाव उत्पन्न करने के लिए किया जाता है।
फिलहाल, AI वीडियो मॉडल अपने शुरुआती विकास चरण में है। AI मॉडल के लिए कोई लॉन्च तिथि नहीं है। हालांकि, कंपनी ने इस बात पर प्रकाश डाला है कि वह इसकी प्रगति के बारे में नियमित अपडेट साझा करती रहेगी। उल्लेखनीय है कि कैमरून इससे पहले क्रूज़ और वॉयेज के लिए काम कर चुके हैं, जो स्व-चालित वाहनों के साथ काम करने वाले दो स्टार्टअप हैं।
कंपनी के अन्य सह-संस्थापक और सीटीओ जेफ हॉक इससे पहले वेव में प्रौद्योगिकी के उपाध्यक्ष के रूप में काम कर रहे थे, जो एक एआई फर्म है जो स्वायत्त ड्राइविंग सिस्टम विकसित कर रही है।