Nvidia Research Introduces DiffUHaul, an AI Tool That Allows Object Relocation in Images
एनवीडिया शोधकर्ताओं ने सोमवार को एक नया कृत्रिम बुद्धिमत्ता (एआई) मॉडल पेश किया जो एक छवि में वस्तुओं को स्थानांतरित कर सकता है। डिफ़ुहॉल नाम का यह उपकरण छवि के पृष्ठभूमि या आकार को प्रभावित किए बिना किसी वस्तु को एक स्थान से दूसरे स्थान पर ले जाने के लिए छवि के संदर्भ को स्थानिक रूप से समझ सकता है। इस तकनीक का अनूठा पहलू यह है कि यह प्रशिक्षण-मुक्त है, अर्थात इस उपकरण को बनाने के लिए किसी पूर्व-प्रशिक्षण डेटा का उपयोग नहीं किया गया है। कंपनी द्वारा नई तकनीक का प्रदर्शन स्पेशल इंटरेस्ट ग्रुप ऑन कंप्यूटर ग्राफिक्स एंड इंटरएक्टिव टेक्निक्स (SIGGRAPH) एशिया 2024 सम्मेलन में किया गया।
एक शोध पत्र में, एनवीडिया शोधकर्ताओं ने नए एआई टूल के बारे में विस्तार से बताया। यह तकनीक यरूशलेम के हिब्रू विश्वविद्यालय, तेल अवीव विश्वविद्यालय और रीचमैन विश्वविद्यालय के सहयोग से विकसित की गई थी। नए टूल के साथ, शोधकर्ताओं का लक्ष्य एआई छवि निर्माण मॉडल के साथ एक प्रमुख मुद्दे को हल करना है – स्थानिक जागरूकता के साथ एक छवि में वस्तुओं को स्थानांतरित करने की समस्या।
पेपर इस बात पर प्रकाश डालता है कि एआई मॉडल में स्थानिक तर्क की कमी के कारण यह विशेष संपादन कार्य एआई वैज्ञानिकों के लिए एक बाधा बना हुआ है। मौजूदा विज़ुअल मॉडल किसी छवि के संदर्भ को समझ सकते हैं, लेकिन वस्तुओं को स्थानांतरित करने में असमर्थ हैं क्योंकि वे यह नहीं समझते हैं कि 2डी वातावरण में किसी गति को स्थानिक रूप से कैसे देखा जाएगा।
DiffUHaul के साथ, एनवीडिया का दावा है कि इस समस्या को हल किया जा सकता है। छवि प्रसार वास्तुकला के आधार पर, उपकरण डीनोइज़िंग चरण में ध्यान मास्किंग का उपयोग करता है। यह उच्च-स्तरीय वस्तु स्वरूप को संरक्षित करने के लिए किया जाता है। एआई टूल ब्लॉबजेन का उपयोग करता है, एक नई तकनीक जो एआई टूल में स्थानिक समझ को एकीकृत करती है। इसके अलावा, निर्दिष्ट स्थान पर स्थानीयकृत मॉडल के साथ वास्तविक छवियों को फिर से बनाने के लिए नई तकनीकों का उपयोग किया गया।
फ्रंट एंड पर, उपयोगकर्ता उस ऑब्जेक्ट को हाइलाइट करते हुए एक टेक्स्ट प्रॉम्प्ट टाइप करने में सक्षम होंगे जिसे वे बदलना चाहते हैं और एआई पृष्ठभूमि को तदनुसार समायोजित करते हुए ऑब्जेक्ट को स्थानिक रूप से पुन: समायोजित कर सकता है। कंपनी द्वारा दिखाए गए प्रदर्शनों में, यह निर्धारित नहीं किया जा सका कि एआई संपादन उपकरण स्थानिक आंदोलन के साथ आने वाले आकार परिवर्तनों को समझ सकता है या नहीं। उदाहरण के लिए, यदि हवा में उड़ते गुब्बारे को जमीन पर ले जाया जाए तो उसका आकार भी बदल जाता है। हालाँकि, प्रशिक्षण की कमी के कारण AI इसे पकड़ने में सक्षम नहीं हो सकता है।