Meta Releases ‘Segment Anything Model 2’ With AI-Powered Object Identification in Images and Videos
मेटा ने सोमवार को एक नया कृत्रिम बुद्धिमत्ता (एआई) मॉडल जारी किया जो जटिल कंप्यूटर विज़न कार्य कर सकता है। डब किया गया सेगमेंट एनीथिंग मॉडल 2 (एसएएम 2), यह अपने पूर्ववर्ती का अनुसरण करता है जिसे पिछले साल लॉन्च किया गया था और इसे इंस्टाग्राम के बैकड्रॉप और कटआउट टूल में शामिल किया गया था। मॉडल का उत्तराधिकारी अब उन्नत क्षमताओं के साथ आता है और कंपनी ने कहा कि यह वीडियो पर भी सेगमेंट की पहचान और ट्रैकिंग कर सकता है। मेटा के अधिकांश बड़े भाषा मॉडल (एलएलएम) की तरह, एसएएम 2 भी एक ओपन-सोर्स एआई मॉडल है।
न्यूज़रूम पोस्ट में, मेटा ने नए एआई मॉडल की घोषणा की जो मुख्य रूप से वीडियो पर सेगमेंट विश्लेषण पर ध्यान केंद्रित करता है, जबकि इसकी छवि विभाजन क्षमताओं में सुधार होता है। अपने पूर्ववर्ती की उपलब्धियों पर प्रकाश डालते हुए, मेटा ने कहा कि एआई मॉडल का उपयोग इंस्टाग्राम के बैकड्रॉप और कटआउट फीचर्स में किया गया था, जबकि समुद्री वैज्ञानिकों ने इसका उपयोग “सोनार छवियों को खंडित करने और प्रवाल भित्तियों का विश्लेषण करने, आपदा राहत के लिए उपग्रह इमेजरी विश्लेषण, और चिकित्सा क्षेत्र में, खंडीकरण” के लिए किया था। सेलुलर छवियां और त्वचा कैंसर का पता लगाने में सहायता”।
एसएएम 2 एक छवि और वीडियो में ऑब्जेक्ट विभाजन के साथ-साथ वास्तविक समय में वीडियो के विभिन्न फ़्रेमों में ट्रैक करने में सक्षम है। एआई उन परिदृश्यों में भी वस्तुओं को ट्रैक और खंडित कर सकता है जहां वस्तुएं तेजी से चलती हैं, उपस्थिति में बदलाव करती हैं, या अन्य वस्तुओं या पूरी तरह से अलग दृश्य द्वारा छिपी होती हैं।
प्रॉम्प्ट-आधारित दृश्य विभाजन के लिए आधार मॉडल एक सरल ट्रांसफार्मर वास्तुकला पर बनाया गया है। इसमें एक स्ट्रीमिंग मेमोरी है जो इसे वास्तविक समय में वीडियो संसाधित करने की अनुमति देती है। कंपनी ने यह भी दावा किया कि मॉडल को उसके सबसे बड़े वीडियो सेगमेंटेशन डेटासेट जिसे SA-V डेटासेट कहा जाता है, पर प्रशिक्षित किया गया था।
मेटा ने कहा कि एआई मॉडल वीडियो संपादन या एआई-आधारित वीडियो निर्माण की प्रक्रिया को आसान बनाने में मदद कर सकता है, साथ ही कंपनी के मिश्रित-वास्तविकता पारिस्थितिकी तंत्र में नए अनुभवों को शक्ति प्रदान कर सकता है। कंपनी ने कहा कि वीडियो में ऑब्जेक्ट ट्रैकिंग क्षमता अन्य कंप्यूटर विज़न सिस्टम को प्रशिक्षित करने के लिए विज़ुअल डेटा के तेज़ एनोटेशन में भी सहायता कर सकती है।
चूंकि यह एक ओपन-सोर्स एआई मॉडल है, इसलिए कंपनी ने इसके वेटेज को अपने GitHub पेज पर होस्ट किया है। इच्छुक व्यक्ति एआई मॉडल को डाउनलोड और परीक्षण कर सकते हैं। विशेष रूप से, इसे Apache 2.0 लाइसेंस के तहत लाइसेंस प्राप्त है जो अनुसंधान, शैक्षणिक और गैर-व्यावसायिक उपयोग की अनुमति देता है।