Tencent InstantMesh, an AI Model Capable of 3D Rendering Static Images Unveiled
Tencent ने एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जारी किया है, जिसे InstantMesh नाम दिया गया है, जो स्थिर फ़ोटो का उपयोग करके 3D ऑब्जेक्ट्स को रेंडर कर सकता है। नया AI मॉडल कंपनी के पुराने Instant3D फ़्रेमवर्क पर अपग्रेड है और अब बड़े पुनर्निर्माण मॉडल (LRM) आर्किटेक्चर पर आधारित मल्टीव्यू डिफ़्यूज़न मॉडल और स्पर्स-व्यू पुनर्निर्माण मॉडल के संयोजन का उपयोग करता है। Tencent ने InstantMesh मॉडल को ओपन सोर्स भी बनाया है और उत्साही लोगों के लिए इसकी क्षमताओं का परीक्षण करने या 3D रेंडर बनाने और निर्यात करने के लिए एक पूर्वावलोकन ऐप पेश किया है।
कंपनी ने arXiv पर अपने शोध पत्र का प्री-प्रिंट संस्करण प्रकाशित किया। विशेष रूप से, arXiv सहकर्मी समीक्षा नहीं करता है, इसलिए यह कहना मुश्किल है कि मॉडल का मूल्यांकन किया गया है या नहीं। हालाँकि, कंपनी ने पहले ही Hugging Face पर ओपन सोर्स में AI मॉडल उपलब्ध करा दिया है, ताकि डेवलपर्स इसकी दक्षता का परीक्षण कर सकें। उत्साही लोगों के लिए, एक ऐप व्यू भी उपलब्ध है जहाँ वे एक फोटो जोड़ सकते हैं और इसे 3D रेंडर में बदलते हुए देख सकते हैं। हमने, Gadgets 360 पर, प्लेटफ़ॉर्म का परीक्षण किया और पाया कि रेंडर 10 सेकंड से कम समय में बनाए गए थे, जैसा कि कंपनी ने दावा किया था। हालाँकि, रेंडर की गुणवत्ता काफी कम गुणवत्ता वाली लगी। एक X (जिसे पहले X के नाम से जाना जाता था) उपयोगकर्ता ने AI मॉडल का उपयोग करने का एक वीडियो पोस्ट किया, और आप नीचे परिणाम देख सकते हैं।
Tencent का InstantMesh कमाल का है – उच्च गुणवत्ता वाले आउटपुट के साथ सुपर फास्ट इमेज-टू-3D
⬇️ नीचे लिंक – 30 सेकंड में एक ही छवि से 3D मॉडल मुफ्त में बनाएं 🔥🔥 pic.twitter.com/Dft4xF3vQm
— विक्टर एम (@victormustar) 15 अप्रैल, 2024
एआई मॉडल के पीछे की तकनीक की बात करें तो कंपनी दो अलग-अलग आर्किटेक्चर का इस्तेमाल करती है – एक मल्टीव्यू डिफ्यूजन मॉडल और एक एलआरएम आर्किटेक्चर। पहला इनपुट के रूप में छवि को प्रोसेस करने में मदद करता है और अलग-अलग आयाम उत्पन्न करता है जो छवि में दिखाई नहीं देते हैं, और एलआरएम एक ऑर्बिटल व्यू ऑब्जेक्ट का निर्माण करता है जिसे 3डी वातावरण में अनुभव किया जा सकता है।
Tencent के अनुसार, InstantMesh 3D रेंडरिंग की दुनिया में Janus समस्या का समाधान करता है। Janus समस्या 3D रेंडरिंग स्पेस में एक घटना है, जहाँ मॉडल को संदर्भ ऑब्जेक्ट के विभिन्न पक्षों की “कल्पना” करनी होती है और उन्हें बनाना होता है, इसलिए यह एक सुसंगत 3D ऑब्जेक्ट के बजाय ऑब्जेक्ट के कई कैनोनिकल दृश्य बनाता है। कंपनी स्टेबल डिफ्यूजन से फाइन-ट्यून किए गए एक नए व्यू जनरेटर का उपयोग करके इस समस्या का समाधान करती है।
शोध पत्र में विभिन्न मौजूदा मॉडलों की तुलना में बेंचमार्क स्कोर भी साझा किए गए हैं, जिसमें स्टेबिलिटी AI का स्टेबल वीडियो 3D भी शामिल है, जिसे हाल ही में लॉन्च किया गया था। स्कोर के आधार पर, InstantMesh ने Google स्कैन किए गए ऑब्जेक्ट्स (GSO) और OmniObject3D (Omni3D) ऑर्बिट व्यू पर SV3D से बेहतर प्रदर्शन किया। SV3D ने Omni3D बेंचमार्क में कुछ मापदंडों में बेहतर प्रदर्शन किया, जो आउटपुट के रिज़ॉल्यूशन के अनुरूप था, लेकिन Tencent ने कहा कि यह जानबूझकर किया गया था। “हम तर्क देते हैं कि अवधारणात्मक गुणवत्ता निष्ठा से अधिक महत्वपूर्ण है, क्योंकि “सच्चे उपन्यास दृश्य” अज्ञात होने चाहिए और संदर्भ के रूप में एक ही छवि दिए जाने पर कई संभावनाएँ होनी चाहिए,” कंपनी ने समझाया।