Google’s Whisk AI Experimental Tool Can Mash-Up Images to Generate Unique Outputs
Google ने सोमवार को एक नया प्रायोगिक कृत्रिम बुद्धिमत्ता (AI) टूल पेश किया जो अद्वितीय आउटपुट उत्पन्न करने के लिए छवियों को फ्यूज कर सकता है। डब्ड व्हिस्क, यह एक मज़ेदार उपकरण है जिसका इसके निर्दिष्ट फ़ंक्शन के बाहर कोई बड़ा अनुप्रयोग नहीं है। माउंटेन व्यू-आधारित टेक दिग्गज ने हाल ही में जेनचेस जैसे कई ऐसे मज़ेदार एआई टूल जारी किए हैं, जो अद्वितीय शतरंज की बिसात के टुकड़े तैयार करने के लिए इमेजन 3 एआई मॉडल का उपयोग करता है। व्हिस्क के साथ, कंपनी यह प्रदर्शित कर रही है कि कैसे एआई अद्वितीय कला उत्पन्न करने के लिए एक संकेत के रूप में केवल छवियों का उपयोग कर सकता है।
Google का व्हिस्क इनपुट छवियों को ‘रीमिक्स’ कर सकता है
एक ब्लॉग पोस्ट में, टेक दिग्गज ने नया AI टूल पेश किया। व्हिस्क वर्तमान में केवल यूएस में उपलब्ध है, और इसे Google लैब्स के माध्यम से एक्सेस किया जा सकता है, जो कंपनी के देशी एआई मॉडल का उपयोग करके बनाए गए प्रायोगिक टूल जारी करने का प्लेटफॉर्म है। अन्य सभी टूल की तरह, व्हिस्क भी प्रयोगात्मक है और Google इस बात पर प्रकाश डालता है कि कभी-कभी यह उस तरह से प्रदर्शन नहीं कर पाता जैसा उपयोगकर्ता चाहते हैं।
एआई छवि जनरेटर काफी सामान्य हैं, हालांकि, उनमें से अधिकांश या तो केवल टेक्स्ट या टेक्स्ट और छवियों के मिश्रण को इनपुट के रूप में स्वीकार करते हैं। संक्षेप में, छवि निर्माण मॉडल को यह समझने के लिए कि क्या बनाना है, कुछ हद तक प्राकृतिक भाषा के संकेतों की आवश्यकता होती है। हालाँकि, व्हिस्क ऐसे मॉडलों से अलग है क्योंकि उपयोगकर्ता मॉडल को आउटपुट बनाने के लिए प्रेरित करने के लिए केवल छवियां जोड़ सकते हैं।
व्हिस्क उपयोगकर्ताओं को तीन छवियां जोड़ने के लिए कहता है – विषय, दृश्य और शैली के लिए एक-एक। एक बार जोड़ने के बाद, एआई टूल स्वचालित रूप से एक अद्वितीय छवि उत्पन्न करने के लिए दृश्य जानकारी को संसाधित करता है जो सभी तीन इनपुट छवियों का संयोजन है। आउटपुट उत्पन्न करने के लिए उपयोगकर्ता केवल दो छवियां भी जोड़ सकते हैं, एक विषय के लिए और दूसरी दृश्य के लिए।
Google ने बताया कि पर्दे के पीछे, जेमिनी मॉडल छवियों को संसाधित करता है और एक विस्तृत प्राकृतिक भाषा संकेत लिखता है, जिसे बाद में इमेजेन 3 मॉडल में फीड किया जाता है। प्रॉम्प्ट का उद्देश्य छवियों के सार को पकड़ना है और इनपुट छवियों का एक वस्तुनिष्ठ मिश्रण उत्पन्न करने का प्रयास नहीं करता है।
चूंकि व्हिस्क एक प्रायोगिक मॉडल है, इसलिए उत्पन्न छवियां उपयोगकर्ता की अपेक्षाओं से भिन्न हो सकती हैं। उपयोगकर्ताओं को आउटपुट पर अधिक नियंत्रण देने के लिए, व्हिस्क उपयोगकर्ताओं को पीढ़ी के बाद छवियों को परिष्कृत और संपादित करने देता है। उपयोगकर्ता जेमिनी द्वारा लिखे गए अंतर्निहित संकेत को आसानी से जांच सकते हैं और इसे बदल सकते हैं या वांछित परिणाम प्राप्त करने के लिए अधिक जानकारी जोड़ सकते हैं।
“हमने इसे तीव्र दृश्य अन्वेषण के लिए बनाया है, न कि पिक्सेल-परिपूर्ण संपादन के लिए। यह नए और रचनात्मक तरीकों से विचारों की खोज करने के बारे में है, जो आपको दर्जनों विकल्पों के माध्यम से काम करने और जो आपको पसंद है उसे डाउनलोड करने की अनुमति देता है, ”Google ने कहा।
नवीनतम तकनीकी समाचारों और समीक्षाओं के लिए गैजेट्स 360 को फ़ॉलो करें एक्सफेसबुक, व्हाट्सएप, थ्रेड्स और गूगल न्यूज। गैजेट और तकनीक पर नवीनतम वीडियो के लिए, हमारे YouTube चैनल की सदस्यता लें। यदि आप शीर्ष प्रभावशाली व्यक्तियों के बारे में सब कुछ जानना चाहते हैं, तो इंस्टाग्राम और यूट्यूब पर हमारे इन-हाउस Who’sThat360 को फ़ॉलो करें।
माइक्रोसॉफ्ट के सीईओ सत्या नडेला ने सभी डिवाइसों पर एक्सबॉक्स गेम्स पर जोर दिया