Apple Researchers Working On-Device AI Model That Can Understand Contextual Prompts
Apple के शोधकर्ताओं ने एक कृत्रिम बुद्धिमत्ता (AI) मॉडल पर एक नया पेपर प्रकाशित किया है, जिसके बारे में उनका दावा है कि यह प्रासंगिक भाषा को समझने में सक्षम है। अभी तक सहकर्मी-समीक्षित शोध पत्र में यह भी उल्लेख किया गया है कि बड़ी भाषा मॉडल (LLM) बहुत अधिक कम्प्यूटेशनल शक्ति का उपभोग किए बिना पूरी तरह से डिवाइस पर काम कर सकती है। AI मॉडल का विवरण इसे स्मार्टफोन सहायक की भूमिका के लिए उपयुक्त बनाता है, और यह सिरी, टेक दिग्गज के मूल वॉयस असिस्टेंट को अपग्रेड कर सकता है। पिछले महीने, Apple ने MM1 नामक एक मल्टीमॉडल AI मॉडल के बारे में एक और पेपर प्रकाशित किया।
शोध पत्र वर्तमान में प्री-प्रिंट चरण में है और arXiv पर प्रकाशित किया गया है, जो विद्वानों के पत्रों का एक ओपन-एक्सेस ऑनलाइन रिपोजिटरी है। AI मॉडल को ReALM नाम दिया गया है, जो कि रेफरेंस रेज़ोल्यूशन ऐज़ लैंग्वेज मॉडल का संक्षिप्त रूप है। पेपर में इस बात पर प्रकाश डाला गया है कि मॉडल का प्राथमिक फ़ोकस उन कार्यों को निष्पादित करना और पूरा करना है जो प्रासंगिक भाषा का उपयोग करके संकेत दिए जाते हैं, जो मनुष्यों के बोलने के तरीके के लिए अधिक सामान्य है। उदाहरण के लिए, पेपर के दावे के अनुसार, यह समझ पाएगा कि जब कोई उपयोगकर्ता कहता है, “मुझे नीचे से दूसरे स्थान पर ले चलो”।
ReALM को स्मार्ट डिवाइस पर कार्य करने के लिए बनाया गया है। इन कार्यों को तीन खंडों में विभाजित किया गया है – ऑन-स्क्रीन इकाइयाँ, संवादात्मक इकाइयाँ और पृष्ठभूमि इकाइयाँ। पेपर में साझा किए गए उदाहरणों के आधार पर, ऑन-स्क्रीन इकाइयाँ डिवाइस की स्क्रीन पर दिखाई देने वाले कार्यों को संदर्भित करती हैं, संवादात्मक इकाइयाँ उपयोगकर्ता द्वारा अनुरोध किए गए कार्यों पर आधारित होती हैं, और पृष्ठभूमि इकाइयाँ उन कार्यों को संदर्भित करती हैं जो पृष्ठभूमि में हो रहे हैं जैसे कि किसी ऐप पर बजने वाला गाना।
इस AI मॉडल के बारे में दिलचस्प बात यह है कि पेपर का दावा है कि संदर्भ संकेतों के माध्यम से सुझाए गए कार्यों को समझने, संसाधित करने और निष्पादित करने के जटिल कार्य को करने के बावजूद, इसमें उच्च मात्रा में कम्प्यूटेशनल ऊर्जा की आवश्यकता नहीं होती है, “ReaLM को एक व्यावहारिक संदर्भ समाधान प्रणाली के लिए एक आदर्श विकल्प बनाता है जो प्रदर्शन पर समझौता किए बिना डिवाइस पर मौजूद हो सकता है।” यह GPT-3.5 और GPT-4 जैसे प्रमुख LLM की तुलना में काफी कम मापदंडों का उपयोग करके इसे प्राप्त करता है।
पेपर में यह भी दावा किया गया है कि इतने सीमित वातावरण में काम करने के बावजूद, AI मॉडल ने OpenAI के GPT-3.5 और GPT-4 की तुलना में “काफी” बेहतर प्रदर्शन किया। पेपर में आगे बताया गया है कि जहाँ मॉडल ने GPT-3.5 की तुलना में टेक्स्ट-ओनली बेंचमार्क पर बेहतर स्कोर किया, वहीं डोमेन-विशिष्ट उपयोगकर्ता कथनों के लिए इसने GPT-4 से बेहतर प्रदर्शन किया।
हालांकि यह पेपर आशाजनक है, लेकिन अभी तक इसकी समीक्षा नहीं हुई है, और इसलिए इसकी वैधता अनिश्चित बनी हुई है। लेकिन अगर पेपर को सकारात्मक समीक्षा मिलती है, तो यह ऐप्पल को व्यावसायिक रूप से मॉडल विकसित करने और यहां तक कि सिरी को और अधिक स्मार्ट बनाने के लिए इसका उपयोग करने के लिए प्रेरित कर सकता है।