Apple Releases MGIE AI Image Editing Tool Capable of Making Detailed Edits Using Text Prompts
Apple के शोधकर्ताओं ने MGIE नामक एक आर्टिफिशियल इंटेलिजेंस (AI)-संचालित इमेज एडिटिंग टूल जारी किया है, जो सरल टेक्स्ट प्रॉम्प्ट का उपयोग करके छवियों को संपादित करने में सक्षम है। MGIE, जिसका मतलब है MLLM-गाइडेड इमेज एडिटिंग, फ़ोटोशॉप-स्टाइल एडिट, ग्लोबल ऑप्टिमाइज़ेशन और लोकल एडिट करने में सक्षम है। AI टूल Apple द्वारा अपनी तिमाही आय कॉल में घोषणा किए जाने के कुछ ही दिनों बाद जारी किया गया था कि वह जनरेटिव AI में “बहुत अधिक समय और प्रयास” खर्च कर रहा है। इमेज एडिटिंग मॉडल वर्तमान में मौजूद AI एडिटिंग टूल पर एक सुधार दिखाता है।
ऐप्पल और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, सांता बारबरा के शोधकर्ताओं ने इस टूल को विकसित करने के प्रयासों में सहयोग किया। वेंचरबीट की रिपोर्ट के अनुसार यह शोधपत्र इंटरनेशनल कॉन्फ्रेंस ऑन लर्निंग रिप्रेजेंटेशन (ICLR) 2024 में प्रस्तुत किया गया। शोधपत्र का प्रीप्रिंट संस्करण arXiv पर भी होस्ट किया गया है।
AI टूल फ़ोटोशॉप-स्टाइल एडिट करने में सक्षम है जिसमें क्रॉपिंग, आकार बदलना, घुमाना, फ़िल्टर जोड़ना और बहुत कुछ शामिल है। यह वैश्विक अनुकूलन भी जोड़ सकता है जहाँ यह चमक, कंट्रास्ट, तीक्ष्णता, रंग संतुलन को बदल सकता है और यहाँ तक कि छवि में जनरेटिव तत्व भी जोड़ सकता है। इसके अतिरिक्त, यह स्थानीय संपादन कर सकता है जहाँ यह छवि में एक विशेष वस्तु या तत्व को जोड़ता, हटाता या बदलता है।
संपादन करने के लिए, उपयोगकर्ता बस एक सादा पाठ संकेत लिख सकते हैं जैसे कि “आसमान को उज्जवल बनाओ” या “घर को बड़ा बनाओ”, जिसे फिर एक छवि आदेश के रूप में व्याख्या किया जाता है और इसका उपयोग एक निश्चित प्रतिशत से चमक बढ़ाने या घर के आकार को एक निश्चित मीट्रिक द्वारा बढ़ाने के लिए किया जाता है। उपयोगकर्ता अधिक जटिल और बारीक संपादन भी प्रदान कर सकते हैं जैसे कि “पत्तियों और पेड़ के तने के विवरण को सामने लाने के लिए अंधेरे और हल्के क्षेत्रों के बीच समायोजन करें।” एक संकेत जितना अधिक विस्तृत होगा, वांछित परिणाम के उतने ही करीब होगा।
जबकि फ़ोटोशॉप के जेनरेटिव फिल और परीक्षण के तहत फायरफ्लाई, कैनवा के मैजिक डिज़ाइन और ल्यूमिनार नियो जैसे एआई-आधारित फोटो संपादन उपकरण पहले से ही मौजूद हैं, उन सभी को उपयोगकर्ता को संपादन स्थान को मैप करने या बारीक बदलाव करने के लिए सॉफ़्टवेयर के साथ बातचीत करने की आवश्यकता होती है। दूसरी ओर, Apple का MGIE पूरी तरह से अपने आप संपादन कर सकता है। यह “निर्देश-आधारित छवि संपादन” या “पाठ-निर्देशित छवि संपादन” का उपयोग करता है, जिसे कृत्रिम बुद्धिमत्ता ढांचे के लिए एक अनूठा दृष्टिकोण अपनाकर संभव बनाया गया है।
जेनरेटिव एडवर्सरियल नेटवर्क (GAN) फ्रेमवर्क पर निर्भर होने के बजाय, AI मॉडल डिफ्यूजन मॉडल का उपयोग करता है जो यथार्थवादी फोटो जेनरेशन और निर्देश पालन के मामले में अधिक उन्नत आर्किटेक्चर है। इसके बाद, शोधकर्ताओं ने यह सुनिश्चित करने के लिए एक मल्टीमॉडल लार्ज लैंग्वेज मॉडल का उपयोग करना शुरू कर दिया कि यह प्राकृतिक भाषा को छवियों में अनुवाद करने और वांछित प्रभाव दिखाने में सक्षम था। इसके अलावा, संपादन को रैंक करने के लिए प्रक्रिया के दौरान मानव मूल्यांकनकर्ताओं का भी उपयोग किया गया था, और मॉडल को और बेहतर बनाने के लिए फीडबैक का उपयोग किया गया था।
टेक दिग्गज ने GitHub के माध्यम से ओपन-सोर्स प्रोजेक्ट के रूप में MGIE AI इमेज एडिटिंग टूल को डाउनलोड करने के लिए उपलब्ध कराया है। फिलहाल, यह पता नहीं चल पाया है कि Apple अपने डिवाइस के लिए इस तकनीक का उपयोग करने की योजना बना रहा है या नहीं। हालाँकि, Apple के सीईओ टिम कुक ने कहा है कि कंपनी इस साल के अंत में जनरेटिव AI फीचर्स की घोषणा करेगी, जिस पर वह काम कर रही है, जबकि Apple कथित तौर पर iOS 18 अपडेट के लिए नए AI-संचालित फीचर्स पर काम कर रहा है, जो इस साल के अंत में आने की उम्मीद है।