A.I

Nvidia Debuts Fugatto AI Model That Can Generate Music, Voices and Sound Effects

एनवीडिया ने सोमवार को एक नया कृत्रिम बुद्धिमत्ता (एआई) मॉडल पेश किया जो विभिन्न प्रकार के ऑडियो उत्पन्न कर सकता है और विभिन्न प्रकार की ध्वनियों को मिश्रित कर सकता है। तकनीकी दिग्गज फाउंडेशन मॉडल को फुगाटो कहते हैं, जो फाउंडेशनल जेनरेटिव ऑडियो ट्रांसफॉर्मर ओपस 1 का संक्षिप्त रूप है। जबकि बीटोवेन और सुनो जैसे ऑडियो-केंद्रित एआई प्लेटफॉर्म मौजूद हैं, कंपनी ने इस बात पर प्रकाश डाला कि फुगाटो उपयोगकर्ताओं को वांछित आउटपुट पर ग्रैनुलर नियंत्रण प्रदान करता है। एआई मॉडल विशिष्ट संकेतों के आधार पर संगीत, आवाज़ और ध्वनि के किसी भी मिश्रण को उत्पन्न या परिवर्तित कर सकता है।

एनवीडिया ने एआई ऑडियो मॉडल फुगाटो पेश किया

एक ब्लॉग पोस्ट में, टेक दिग्गज ने अपने नए बड़े भाषा मॉडल (एलएलएम) के बारे में विस्तार से बताया। एनवीडिया ने कहा कि फुगाट्टो संगीत के टुकड़े उत्पन्न कर सकता है, किसी मौजूदा गीत से वाद्ययंत्र हटा सकता है या जोड़ सकता है, आवाज में उच्चारण या भावना बदल सकता है, और “यहां तक ​​कि लोगों को ऐसी ध्वनियां उत्पन्न करने दे सकता है जो पहले कभी नहीं सुनी गईं।”

एआई मॉडल टेक्स्ट और ऑडियो फ़ाइलों दोनों को इनपुट के रूप में स्वीकार करता है, और उपयोगकर्ता अपने अनुरोधों को बेहतर बनाने के लिए दोनों को जोड़ सकते हैं। हुड के तहत, फाउंडेशन मॉडल का आर्किटेक्चर स्पीच मॉडलिंग, ऑडियो वोकोडिंग और ऑडियो समझ में कंपनी के पिछले काम पर आधारित है। इसका पूर्ण संस्करण 2.5 बिलियन मापदंडों का उपयोग करता है और इसे एनवीडिया डीजीएक्स सिस्टम के डेटासेट पर प्रशिक्षित किया गया था।

एनवीडिया ने इस बात पर प्रकाश डाला कि फुगाटो का निर्माण करने वाली टीम ने ब्राजील, चीन, भारत, जॉर्डन और दक्षिण कोरिया सहित विश्व स्तर पर विभिन्न देशों से सहयोग किया। कंपनी ने कहा कि विभिन्न जातीय लोगों के सहयोग ने एआई मॉडल की बहु-उच्चारण और बहुभाषी क्षमताओं को विकसित करने में भी योगदान दिया है।

एआई ऑडियो मॉडल की क्षमताओं की बात करें तो तकनीकी दिग्गज ने इस बात पर प्रकाश डाला कि इसमें उन ऑडियो आउटपुट प्रकारों को उत्पन्न करने की क्षमता है जिन पर इसे पहले से प्रशिक्षित नहीं किया गया था। एक उदाहरण पर प्रकाश डालते हुए, एनवीडिया ने कहा, “फुगाटो एक तुरही की छाल या एक सैक्सोफोन म्याऊ बना सकता है। उपयोगकर्ता जो कुछ भी वर्णन कर सकते हैं, मॉडल बना सकता है।”

इसके अतिरिक्त, फुगाट्टो कंपोज़ेबलएआरटी नामक तकनीक का उपयोग करके विशिष्ट ऑडियो क्षमताओं को जोड़ सकता है। इसके साथ, उपयोगकर्ता एआई मॉडल से दुखी भाव से फ्रेंच बोलने वाले व्यक्ति का ऑडियो तैयार करने के लिए कह सकते हैं। उपयोगकर्ता विशिष्ट निर्देशों के साथ दुःख की डिग्री और उच्चारण के भारीपन को भी नियंत्रित कर सकते हैं।

इसके अलावा, फाउंडेशन मॉडल अस्थायी प्रक्षेप, या समय के साथ बदलती ध्वनियों के साथ ऑडियो भी उत्पन्न कर सकता है। उदाहरण के लिए, उपयोगकर्ता तेज़ गड़गड़ाहट के साथ आंधी-बारिश की आवाज़ उत्पन्न कर सकते हैं जो दूर तक धुंधली हो जाती है। इन ध्वनि परिदृश्यों का प्रयोग भी किया जा सकता है, और भले ही यह ऐसी ध्वनि हो जिसे मॉडल ने पहले कभी संसाधित नहीं किया हो, यह उन्हें बना सकता है।

फिलहाल, कंपनी ने एआई मॉडल को उपयोगकर्ताओं या उद्यमों के लिए उपलब्ध कराने की कोई योजना साझा नहीं की है।

Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button