Google I/O 2024: Google Unveils AI Video Generator Veo, Takes on OpenAI’s Sora
Google I/O 2024 का मुख्य सत्र 112 मिनट लंबा था, जिसमें कंपनी ने आर्टिफिशियल इंटेलिजेंस (AI) पर केंद्रित कई बड़ी घोषणाएँ कीं। घोषणाएँ नए AI मॉडल से लेकर Google उत्पादों में AI के एकीकरण तक थीं, लेकिन शायद सबसे दिलचस्प परिचय Veo था, जो AI-संचालित वीडियो जनरेशन मॉडल है, जो 1080p रिज़ॉल्यूशन वाले वीडियो बना सकता है। टेक दिग्गज ने कहा कि AI टूल एक मिनट से ज़्यादा लंबे वीडियो बना सकता है। उल्लेखनीय रूप से, OpenAI ने फरवरी में Sora नामक अपने वीडियो AI मॉडल का भी अनावरण किया।
कार्यक्रम के दौरान, Google DeepMind के सह-संस्थापक और सीईओ डेमिस हसबिस ने Veo का अनावरण किया। AI मॉडल की घोषणा करते हुए उन्होंने कहा, “आज, मैं Veo नामक हमारे सबसे नए और सबसे सक्षम जेनरेटिव वीडियो मॉडल की घोषणा करते हुए उत्साहित हूँ। Veo टेक्स्ट, इमेज और वीडियो प्रॉम्प्ट से उच्च-गुणवत्ता वाले 1080p वीडियो बनाता है। यह आपके निर्देशों के विवरण को विभिन्न दृश्य और सिनेमाई शैलियों में कैप्चर कर सकता है।”
तकनीकी दिग्गज का दावा है कि वीओ किसी वाक्यांश की बारीकियों और लहजे को समझने के लिए संकेतों का बारीकी से पालन कर सकता है और फिर उससे मिलता-जुलता वीडियो बना सकता है। AI मॉडल टाइमलैप्स, क्लोज-अप, फास्ट-ट्रैकिंग शॉट्स, एरियल शॉट्स और विभिन्न लाइटिंग और फील्ड शॉट्स की गहराई जैसे विभिन्न शैलियों में वीडियो बना सकता है। वीडियो बनाने के अलावा, AI मॉडल वीडियो को संपादित भी कर सकता है जब उपयोगकर्ता इसे एक प्रारंभिक वीडियो और कुछ जोड़ने या हटाने के लिए संकेत देता है। इसके अलावा, यह एक मिनट के निशान से परे या तो एक संकेत के माध्यम से या कई अनुक्रमिक संकेतों के माध्यम से वीडियो भी बना सकता है।
वीडियो निर्माण मॉडल में स्थिरता की समस्या को हल करने के लिए, Veo लेटेंट डिफ्यूजन ट्रांसफॉर्मर का उपयोग करता है। यह पात्रों, वस्तुओं या पूरे दृश्य के झिलमिलाने, कूदने या फ्रेम के बीच अप्रत्याशित रूप से मॉर्फ होने की घटनाओं को कम करने में मदद करता है। Google ने इस बात पर प्रकाश डाला कि Veo द्वारा बनाए गए वीडियो को SynthID का उपयोग करके वॉटरमार्क किया जाएगा, जो वॉटरमार्किंग और AI-जनरेटेड कंटेंट की पहचान करने के लिए कंपनी का इन-हाउस टूल है। यह मॉडल जल्द ही Google लैब्स में VideoFX टूल के माध्यम से चुनिंदा क्रिएटर्स के लिए उपलब्ध होगा।
ओपनएआई के सोरा के साथ वीओ की समानताएं
हालाँकि, AI मॉडल में से कोई भी अभी तक लोगों के लिए उपलब्ध नहीं है, लेकिन दोनों में कई समानताएँ हैं। Veo एक मिनट से ज़्यादा अवधि के लिए 1080p वीडियो बना सकता है, जबकि OpenAI का Sora 60 सेकंड तक के वीडियो बना सकता है। दोनों मॉडल टेक्स्ट प्रॉम्प्ट, इमेज और वीडियो से वीडियो बना सकते हैं। डिफ्यूज़न मॉडल के आधार पर, दोनों कई शॉट्स, स्टाइल और सिनेमैटोग्राफी तकनीक से वीडियो बनाने में सक्षम हैं। Sora और Veo दोनों ही AI-जनरेटेड कंटेंट लेबल के साथ आते हैं। Sora Coalition for Content Provenance and Authenticity (C2PA) मानक का उपयोग करता है जबकि Veo अपने मूल SynthID का उपयोग करता है।