Microsoft Unveils VASA-1, an Image-to-Video AI Model That Generates Eerily Realistic Results
Microsoft ने एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल पेश किया है जो बात करने वाले मानवीय चेहरों के हाइपर-रियलिस्टिक वीडियो बना सकता है। VASA-1 नाम का यह AI इमेज-टू-वीडियो मॉडल सिर्फ़ एक फ़ोटो और एक स्पीच ऑडियो क्लिप से वीडियो बना सकता है। कंपनी का कहना है कि बनाए गए वीडियो में ऑडियो के साथ-साथ चेहरे के भाव और सिर की हरकतों को भी सिंक्रोनाइज़ किया जाएगा ताकि यह प्राकृतिक दिखाई दे। विशेष रूप से, टेक दिग्गज VASA-1 मॉडल के साथ कोई उत्पाद या API जारी करने का इरादा नहीं रखता है और दावा करता है कि इसका उपयोग यथार्थवादी आभासी चरित्र बनाने के लिए किया जाएगा।
अपने रिसर्च अनाउंसमेंट पेज पर एक पोस्ट में, माइक्रोसॉफ्ट ने अपने अंडर-डेवलपमेंट एआई मॉडल के कामकाज का विवरण दिया और इसकी क्षमताओं पर प्रकाश डाला। कंपनी का दावा है कि VASA-1 मॉडल 40 FPS तक 512 x 512p रिज़ॉल्यूशन के वीडियो बना सकता है। कहा जाता है कि AI मॉडल नगण्य शुरुआती विलंबता के साथ ऑनलाइन वीडियो निर्माण का भी समर्थन करता है। X (पहले ट्विटर के नाम से जाना जाता था) उपयोगकर्ता काइओ केन साझा एआई मॉडल की क्रियाशीलता का वीडियो।
जबकि VASA-1 की सबसे बड़ी उपलब्धि एक मिनट तक के वीडियो (डेमो के अनुसार) को एक स्थिर छवि के साथ उच्च गुणवत्ता में प्रस्तुत करना है, कंपनी ने ऑडियो फ़ाइल और चेहरे के भावों से मेल खाने वाले होंठों की हरकतें उत्पन्न करने की अपनी क्षमता पर भी प्रकाश डाला। AI वीडियो जनरेशन मॉडल उपयोगकर्ता को वीडियो के विभिन्न पहलुओं जैसे कि मुख्य आंख की दिशा, सिर की दूरी, भावना ऑफसेट और बहुत कुछ को नियंत्रित करने के लिए बारीक नियंत्रण भी प्रदान करता है। अलग-अलग दिखने वाले रूप, 3D हेड पोज़ और चेहरे की गतिशीलता पर ये एट्रिब्यूशन नियंत्रण उपयोगकर्ता के निर्देशों के अनुसार आउटपुट को बारीकी से संशोधित करने में मदद कर सकते हैं।
इसके अलावा, AI मॉडल कलात्मक फ़ोटो, गायन ऑडियो और गैर-अंग्रेजी भाषण का उपयोग करके वीडियो बनाने में भी सक्षम था। माइक्रोसॉफ्ट के शोधकर्ता बताते हैं कि इन कार्यात्मकताओं की क्षमता इसके डेटा में मौजूद नहीं थी, जो इसकी स्व-शिक्षण क्षमता का संकेत देती है।
एआई मॉडल का वास्तविक लोगों का किसी भी ऑडियो के साथ हाइपररियलिस्टिक वीडियो बनाना प्रभावशाली है, लेकिन यह इसके अनैतिक उपयोग के बारे में भी सवाल उठाता है, खासकर डीपफेक बनाने के लिए। कंपनी ने इस बात पर प्रकाश डाला कि उसका एआई मॉडल को जनता के लिए जारी करने का इरादा नहीं है और वह इसका उपयोग करके वर्चुअल इंटरैक्टिव कैरेक्टर बनाना चाहती है।
माइक्रोसॉफ्ट ने यह भी कहा कि इस तकनीक का इस्तेमाल जालसाजी का पता लगाने के लिए किया जा सकता है। “दुरुपयोग की संभावना को स्वीकार करते हुए, हमारी तकनीक की पर्याप्त सकारात्मक क्षमता को पहचानना अनिवार्य है। लाभ – शैक्षिक समानता को बढ़ाने से लेकर, संचार चुनौतियों वाले व्यक्तियों के लिए पहुँच में सुधार, और ज़रूरतमंद लोगों को साथी या चिकित्सीय सहायता प्रदान करना – हमारे शोध और अन्य संबंधित अन्वेषणों के महत्व को रेखांकित करता है। हम मानव कल्याण को आगे बढ़ाने के लक्ष्य के साथ जिम्मेदारी से AI विकसित करने के लिए समर्पित हैं, “कंपनी ने कहा।