November 22, 2024
A.I

Microsoft Unveils VASA-1, an Image-to-Video AI Model That Generates Eerily Realistic Results

  • August 18, 2024
  • 1 min read
Microsoft Unveils VASA-1, an Image-to-Video AI Model That Generates Eerily Realistic Results

Microsoft ने एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल पेश किया है जो बात करने वाले मानवीय चेहरों के हाइपर-रियलिस्टिक वीडियो बना सकता है। VASA-1 नाम का यह AI इमेज-टू-वीडियो मॉडल सिर्फ़ एक फ़ोटो और एक स्पीच ऑडियो क्लिप से वीडियो बना सकता है। कंपनी का कहना है कि बनाए गए वीडियो में ऑडियो के साथ-साथ चेहरे के भाव और सिर की हरकतों को भी सिंक्रोनाइज़ किया जाएगा ताकि यह प्राकृतिक दिखाई दे। विशेष रूप से, टेक दिग्गज VASA-1 मॉडल के साथ कोई उत्पाद या API जारी करने का इरादा नहीं रखता है और दावा करता है कि इसका उपयोग यथार्थवादी आभासी चरित्र बनाने के लिए किया जाएगा।

अपने रिसर्च अनाउंसमेंट पेज पर एक पोस्ट में, माइक्रोसॉफ्ट ने अपने अंडर-डेवलपमेंट एआई मॉडल के कामकाज का विवरण दिया और इसकी क्षमताओं पर प्रकाश डाला। कंपनी का दावा है कि VASA-1 मॉडल 40 FPS तक 512 x 512p रिज़ॉल्यूशन के वीडियो बना सकता है। कहा जाता है कि AI मॉडल नगण्य शुरुआती विलंबता के साथ ऑनलाइन वीडियो निर्माण का भी समर्थन करता है। X (पहले ट्विटर के नाम से जाना जाता था) उपयोगकर्ता काइओ केन साझा एआई मॉडल की क्रियाशीलता का वीडियो।

जबकि VASA-1 की सबसे बड़ी उपलब्धि एक मिनट तक के वीडियो (डेमो के अनुसार) को एक स्थिर छवि के साथ उच्च गुणवत्ता में प्रस्तुत करना है, कंपनी ने ऑडियो फ़ाइल और चेहरे के भावों से मेल खाने वाले होंठों की हरकतें उत्पन्न करने की अपनी क्षमता पर भी प्रकाश डाला। AI वीडियो जनरेशन मॉडल उपयोगकर्ता को वीडियो के विभिन्न पहलुओं जैसे कि मुख्य आंख की दिशा, सिर की दूरी, भावना ऑफसेट और बहुत कुछ को नियंत्रित करने के लिए बारीक नियंत्रण भी प्रदान करता है। अलग-अलग दिखने वाले रूप, 3D हेड पोज़ और चेहरे की गतिशीलता पर ये एट्रिब्यूशन नियंत्रण उपयोगकर्ता के निर्देशों के अनुसार आउटपुट को बारीकी से संशोधित करने में मदद कर सकते हैं।

इसके अलावा, AI मॉडल कलात्मक फ़ोटो, गायन ऑडियो और गैर-अंग्रेजी भाषण का उपयोग करके वीडियो बनाने में भी सक्षम था। माइक्रोसॉफ्ट के शोधकर्ता बताते हैं कि इन कार्यात्मकताओं की क्षमता इसके डेटा में मौजूद नहीं थी, जो इसकी स्व-शिक्षण क्षमता का संकेत देती है।

एआई मॉडल का वास्तविक लोगों का किसी भी ऑडियो के साथ हाइपररियलिस्टिक वीडियो बनाना प्रभावशाली है, लेकिन यह इसके अनैतिक उपयोग के बारे में भी सवाल उठाता है, खासकर डीपफेक बनाने के लिए। कंपनी ने इस बात पर प्रकाश डाला कि उसका एआई मॉडल को जनता के लिए जारी करने का इरादा नहीं है और वह इसका उपयोग करके वर्चुअल इंटरैक्टिव कैरेक्टर बनाना चाहती है।

माइक्रोसॉफ्ट ने यह भी कहा कि इस तकनीक का इस्तेमाल जालसाजी का पता लगाने के लिए किया जा सकता है। “दुरुपयोग की संभावना को स्वीकार करते हुए, हमारी तकनीक की पर्याप्त सकारात्मक क्षमता को पहचानना अनिवार्य है। लाभ – शैक्षिक समानता को बढ़ाने से लेकर, संचार चुनौतियों वाले व्यक्तियों के लिए पहुँच में सुधार, और ज़रूरतमंद लोगों को साथी या चिकित्सीय सहायता प्रदान करना – हमारे शोध और अन्य संबंधित अन्वेषणों के महत्व को रेखांकित करता है। हम मानव कल्याण को आगे बढ़ाने के लक्ष्य के साथ जिम्मेदारी से AI विकसित करने के लिए समर्पित हैं, “कंपनी ने कहा।


संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – विवरण के लिए हमारा नैतिकता वक्तव्य देखें।



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *