A.I

Microsoft Unveils VASA-1, an Image-to-Video AI Model That Generates Eerily Realistic Results

Biplab Das

August 18, 2024
1 min read

Microsoft Unveils VASA-1, an Image-to-Video AI Model That Generates Eerily Realistic Results

Microsoft ने एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल पेश किया है जो बात करने वाले मानवीय चेहरों के हाइपर-रियलिस्टिक वीडियो बना सकता है। VASA-1 नाम का यह AI इमेज-टू-वीडियो मॉडल सिर्फ़ एक फ़ोटो और एक स्पीच ऑडियो क्लिप से वीडियो बना सकता है। कंपनी का कहना है कि बनाए गए वीडियो में ऑडियो के साथ-साथ चेहरे के भाव और सिर की हरकतों को भी सिंक्रोनाइज़ किया जाएगा ताकि यह प्राकृतिक दिखाई दे। विशेष रूप से, टेक दिग्गज VASA-1 मॉडल के साथ कोई उत्पाद या API जारी करने का इरादा नहीं रखता है और दावा करता है कि इसका उपयोग यथार्थवादी आभासी चरित्र बनाने के लिए किया जाएगा।

अपने रिसर्च अनाउंसमेंट पेज पर एक पोस्ट में, माइक्रोसॉफ्ट ने अपने अंडर-डेवलपमेंट एआई मॉडल के कामकाज का विवरण दिया और इसकी क्षमताओं पर प्रकाश डाला। कंपनी का दावा है कि VASA-1 मॉडल 40 FPS तक 512 x 512p रिज़ॉल्यूशन के वीडियो बना सकता है। कहा जाता है कि AI मॉडल नगण्य शुरुआती विलंबता के साथ ऑनलाइन वीडियो निर्माण का भी समर्थन करता है। X (पहले ट्विटर के नाम से जाना जाता था) उपयोगकर्ता काइओ केन साझा एआई मॉडल की क्रियाशीलता का वीडियो।

जबकि VASA-1 की सबसे बड़ी उपलब्धि एक मिनट तक के वीडियो (डेमो के अनुसार) को एक स्थिर छवि के साथ उच्च गुणवत्ता में प्रस्तुत करना है, कंपनी ने ऑडियो फ़ाइल और चेहरे के भावों से मेल खाने वाले होंठों की हरकतें उत्पन्न करने की अपनी क्षमता पर भी प्रकाश डाला। AI वीडियो जनरेशन मॉडल उपयोगकर्ता को वीडियो के विभिन्न पहलुओं जैसे कि मुख्य आंख की दिशा, सिर की दूरी, भावना ऑफसेट और बहुत कुछ को नियंत्रित करने के लिए बारीक नियंत्रण भी प्रदान करता है। अलग-अलग दिखने वाले रूप, 3D हेड पोज़ और चेहरे की गतिशीलता पर ये एट्रिब्यूशन नियंत्रण उपयोगकर्ता के निर्देशों के अनुसार आउटपुट को बारीकी से संशोधित करने में मदद कर सकते हैं।

इसके अलावा, AI मॉडल कलात्मक फ़ोटो, गायन ऑडियो और गैर-अंग्रेजी भाषण का उपयोग करके वीडियो बनाने में भी सक्षम था। माइक्रोसॉफ्ट के शोधकर्ता बताते हैं कि इन कार्यात्मकताओं की क्षमता इसके डेटा में मौजूद नहीं थी, जो इसकी स्व-शिक्षण क्षमता का संकेत देती है।

एआई मॉडल का वास्तविक लोगों का किसी भी ऑडियो के साथ हाइपररियलिस्टिक वीडियो बनाना प्रभावशाली है, लेकिन यह इसके अनैतिक उपयोग के बारे में भी सवाल उठाता है, खासकर डीपफेक बनाने के लिए। कंपनी ने इस बात पर प्रकाश डाला कि उसका एआई मॉडल को जनता के लिए जारी करने का इरादा नहीं है और वह इसका उपयोग करके वर्चुअल इंटरैक्टिव कैरेक्टर बनाना चाहती है।

माइक्रोसॉफ्ट ने यह भी कहा कि इस तकनीक का इस्तेमाल जालसाजी का पता लगाने के लिए किया जा सकता है। “दुरुपयोग की संभावना को स्वीकार करते हुए, हमारी तकनीक की पर्याप्त सकारात्मक क्षमता को पहचानना अनिवार्य है। लाभ – शैक्षिक समानता को बढ़ाने से लेकर, संचार चुनौतियों वाले व्यक्तियों के लिए पहुँच में सुधार, और ज़रूरतमंद लोगों को साथी या चिकित्सीय सहायता प्रदान करना – हमारे शोध और अन्य संबंधित अन्वेषणों के महत्व को रेखांकित करता है। हम मानव कल्याण को आगे बढ़ाने के लक्ष्य के साथ जिम्मेदारी से AI विकसित करने के लिए समर्पित हैं, “कंपनी ने कहा।

संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – विवरण के लिए हमारा नैतिकता वक्तव्य देखें।

Source link

Post Views: 37

Microsoft Unveils VASA-1, an Image-to-Video AI Model That Generates Eerily Realistic Results

Biplab Das

Tencent InstantMesh, an AI Model Capable of 3D Rendering Static Images Unveiled

Stable Diffusion 3, Turbo Models Are Now Available via Stability AI Developer Platform API

Leave a Reply Cancel reply

Live Results Search

Related Posts

Tags:

Tencent InstantMesh, an AI Model Capable of 3D Rendering Static Images Unveiled

Stable Diffusion 3, Turbo Models Are Now Available via Stability AI Developer Platform API

Leave a Reply Cancel reply

Live Results Search

Related Posts

AI-पावर्ड हेल्थकेयर का उदय: कैसे प्रौद्योगिकी रोगी देखभाल में क्रांति ला रही है

Best artificial intelligence stocks

Sellers Rejoice: Amazon Unveils Link-Enabled AI Product Generation