Apple Researchers Are Building AI Model Called ‘Ferret UI’ That Can Navigate Through iOS
Apple के शोधकर्ताओं ने कृत्रिम बुद्धिमत्ता (AI) मॉडल पर एक और पेपर प्रकाशित किया है, और इस बार फोकस स्मार्टफोन यूजर इंटरफेस (UI) को समझने और नेविगेट करने पर है। अभी तक सहकर्मी-समीक्षित नहीं हुए इस शोध पत्र में फेरेट UI नामक एक बड़े भाषा मॉडल (LLM) पर प्रकाश डाला गया है, जो पारंपरिक कंप्यूटर विज़न से परे जाकर जटिल स्मार्टफोन स्क्रीन को समझ सकता है। उल्लेखनीय रूप से, यह तकनीकी दिग्गज के अनुसंधान प्रभाग द्वारा प्रकाशित AI पर पहला पेपर नहीं है। इसने पहले ही मल्टीमॉडल LLM (MLLM) और ऑन-डिवाइस AI मॉडल पर एक और पेपर प्रकाशित किया है।
शोध पत्र का प्री-प्रिंट संस्करण arXiv पर प्रकाशित किया गया है, जो विद्वानों के शोध पत्रों का एक ओपन-एक्सेस ऑनलाइन संग्रह है। इस शोध पत्र का शीर्षक है “फेरेट-यूआई: मल्टीमॉडल एलएलएम के साथ ग्राउंडेड मोबाइल यूआई अंडरस्टैंडिंग” और यह एमएलएलएम के उपयोग के मामले को विस्तारित करने पर केंद्रित है। यह इस बात पर प्रकाश डालता है कि मल्टीमॉडल क्षमताओं वाले अधिकांश भाषा मॉडल प्राकृतिक छवियों से परे नहीं समझ सकते हैं और उनकी कार्यक्षमता “प्रतिबंधित” है। यह स्मार्टफोन जैसे जटिल और गतिशील इंटरफेस को समझने के लिए एआई मॉडल की आवश्यकता को भी बताता है।
पेपर के अनुसार, फेरेट यूआई को “यूआई स्क्रीन के लिए विशिष्ट सटीक रेफ़रिंग और ग्राउंडिंग कार्यों को निष्पादित करने के लिए डिज़ाइन किया गया है, जबकि ओपन-एंडेड भाषा निर्देशों की व्याख्या और उन पर कार्य करना है।” सरल शब्दों में, विज़न लैंग्वेज मॉडल न केवल विभिन्न सूचनाओं का प्रतिनिधित्व करने वाले कई तत्वों के साथ एक स्मार्टफोन स्क्रीन को संसाधित कर सकता है, बल्कि यह किसी उपयोगकर्ता को क्वेरी के साथ संकेत दिए जाने पर उनके बारे में भी बता सकता है।
पेपर में शेयर की गई एक छवि के आधार पर, मॉडल विजेट को समझ सकता है और वर्गीकृत कर सकता है और आइकन को पहचान सकता है। यह “लॉन्च आइकन कहां है” और “मैं रिमाइंडर ऐप कैसे खोलूं” जैसे सवालों का जवाब भी दे सकता है। इससे पता चलता है कि AI न केवल स्क्रीन को समझाने में सक्षम है, बल्कि प्रॉम्प्ट के आधार पर iPhone के विभिन्न हिस्सों में नेविगेट भी कर सकता है।
फेरेट यूआई को प्रशिक्षित करने के लिए, ऐप्पल शोधकर्ताओं ने खुद ही अलग-अलग जटिलताओं का डेटा बनाया। इससे मॉडल को बुनियादी कार्यों को सीखने और एकल-चरण प्रक्रियाओं को समझने में मदद मिली। “उन्नत कार्यों के लिए, हम GPT-4 का उपयोग करते हैं [40] विस्तृत विवरण, वार्तालाप धारणा, वार्तालाप इंटरैक्शन और फ़ंक्शन अनुमान सहित डेटा उत्पन्न करना। ये उन्नत कार्य मॉडल को दृश्य घटकों के बारे में अधिक सूक्ष्म चर्चाओं में संलग्न होने, विशिष्ट लक्ष्यों को ध्यान में रखते हुए कार्य योजनाएँ तैयार करने और स्क्रीन के सामान्य उद्देश्य की व्याख्या करने के लिए तैयार करते हैं,” पेपर ने समझाया।
यह पेपर आशाजनक है, और यदि यह सहकर्मी-समीक्षा चरण में पास हो जाता है, तो एप्पल इस क्षमता का उपयोग करके iPhone में शक्तिशाली उपकरण जोड़ सकता है जो सरल पाठ या मौखिक संकेतों के साथ जटिल UI नेविगेशन कार्य कर सकता है। यह क्षमता सिरी के लिए आदर्श प्रतीत होती है।