MaGGIe प्राकृतिक छवियों पर बालों की रेंडरिंग और इंस्टेंस सेपरेशन में उत्कृष्ट प्रदर्शन करता है, जटिल, मल्टी-इंस्टेंस परिदृश्यों में MGM और InstMatt से बेहतर है।MaGGIe प्राकृतिक छवियों पर बालों की रेंडरिंग और इंस्टेंस सेपरेशन में उत्कृष्ट प्रदर्शन करता है, जटिल, मल्टी-इंस्टेंस परिदृश्यों में MGM और InstMatt से बेहतर है।

मजबूत मास्क-निर्देशित मैटिंग: शोरयुक्त इनपुट और ऑब्जेक्ट बहुमुखी प्रतिभा का प्रबंधन

2025/12/21 02:00
3 मिनट पढ़ें

सार और 1. परिचय

  1. संबंधित कार्य

  2. MaGGIe

    3.1. कुशल मास्क्ड गाइडेड इंस्टेंस मैटिंग

    3.2. फीचर-मैट टेम्पोरल कंसिस्टेंसी

  3. इंस्टेंस मैटिंग डेटासेट

    4.1. इमेज इंस्टेंस मैटिंग और 4.2. वीडियो इंस्टेंस मैटिंग

  4. प्रयोग

    5.1. इमेज डेटा पर प्री-ट्रेनिंग

    5.2. वीडियो डेटा पर ट्रेनिंग

  5. चर्चा और संदर्भ

\ पूरक सामग्री

  1. आर्किटेक्चर विवरण

  2. इमेज मैटिंग

    8.1. डेटासेट जनरेशन और तैयारी

    8.2. ट्रेनिंग विवरण

    8.3. मात्रात्मक विवरण

    8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम

  3. वीडियो मैटिंग

    9.1. डेटासेट जनरेशन

    9.2. ट्रेनिंग विवरण

    9.3. मात्रात्मक विवरण

    9.4. अधिक गुणात्मक परिणाम

8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम

चित्र 13 चुनौतीपूर्ण परिदृश्यों में हमारे मॉडल के प्रदर्शन को प्रदर्शित करता है, विशेष रूप से बालों के क्षेत्रों को सटीक रूप से रेंडर करने में। हमारा फ्रेमवर्क विवरण संरक्षण में लगातार MGM⋆ से बेहतर प्रदर्शन करता है, खासकर जटिल इंस्टेंस इंटरैक्शन में। InstMatt की तुलना में, हमारा मॉडल अस्पष्ट क्षेत्रों में बेहतर इंस्टेंस पृथक्करण और विवरण सटीकता प्रदर्शित करता है।

\ चित्र 14 और चित्र 15 कई इंस्टेंस वाले चरम मामलों में हमारे मॉडल और पिछले कार्यों के प्रदर्शन को दर्शाते हैं। जबकि MGM⋆ घने इंस्टेंस परिदृश्यों में शोर और सटीकता से जूझता है, हमारा मॉडल उच्च सटीकता बनाए रखता है। InstMatt, अतिरिक्त ट्रेनिंग डेटा के बिना, इन जटिल सेटिंग्स में सीमाएं दिखाता है।

\ हमारे मास्क-गाइडेड दृष्टिकोण की मजबूती चित्र 16 में और प्रदर्शित की गई है। यहां, हम MGM वेरिएंट और SparseMat द्वारा मास्क इनपुट में लापता भागों की भविष्यवाणी करने में सामना की जाने वाली चुनौतियों को उजागर करते हैं, जिन्हें हमारा मॉडल संबोधित करता है। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि हमारा मॉडल मानव इंस्टेंस सेगमेंटेशन नेटवर्क के रूप में डिज़ाइन नहीं किया गया है। जैसा कि चित्र 17 में दिखाया गया है, हमारा फ्रेमवर्क इनपुट मार्गदर्शन का पालन करता है, एक ही मास्क में कई इंस्टेंस के साथ भी सटीक अल्फा मैट भविष्यवाणी सुनिश्चित करता है।

\ अंत में, चित्र 12 और चित्र 11 हमारे मॉडल की सामान्यीकरण क्षमताओं पर जोर देते हैं। मॉडल पृष्ठभूमि से मानव विषयों और अन्य वस्तुओं दोनों को सटीक रूप से निकालता है, विभिन्न परिदृश्यों और वस्तु प्रकारों में इसकी बहुमुखी प्रतिभा को प्रदर्शित करता है।

\ सभी उदाहरण बिना ग्राउंड-ट्रुथ वाली इंटरनेट छवियां हैं और r101fpn400e से मास्क को मार्गदर्शन के रूप में उपयोग किया गया है।

\ चित्र 13. हमारा मॉडल प्राकृतिक छवियों पर अत्यधिक विस्तृत अल्फा मैट उत्पन्न करता है। हमारे परिणाम दिखाते हैं कि यह सटीक है और महंगी कम्प्यूटेशनल लागत के बिना पिछले इंस्टेंस-अज्ञेयवादी और इंस्टेंस-जागरूकता विधियों के साथ तुलनीय है। लाल वर्ग प्रत्येक इंस्टेंस के लिए विवरण क्षेत्रों में ज़ूम करते हैं। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 14. हमारे फ्रेमवर्क कई इंस्टेंस वाले चरम मामले में इंस्टेंस को सटीक रूप से अलग करते हैं। जबकि MGM अक्सर इंस्टेंस के बीच ओवरलैपिंग का कारण बनता है और MGM⋆ में शोर होता है, हमारा बाहरी डेटासेट पर प्रशिक्षित InstMatt के साथ समान परिणाम उत्पन्न करता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 15. हमारे फ्रेमवर्क एक ही पास में इंस्टेंस को सटीक रूप से अलग करते हैं। प्रस्तावित समाधान भविष्यवाणी/परिष्करण को पांच बार चलाए बिना InstMatt और MGM के साथ तुलनीय परिणाम दिखाता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 16. MGM और SparseMat के विपरीत, हमारा मॉडल इनपुट गाइडेंस मास्क के लिए मजबूत है। अटेंशन हेड के साथ, हमारा मॉडल InstMatt जैसे इंस्टेंस के बीच जटिल परिष्करण के बिना मास्क इनपुट के लिए अधिक स्थिर परिणाम उत्पन्न करता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 17. हमारा समाधान मल्टी-इंस्टेंस मास्क गाइडेंस के साथ सही ढंग से काम करता है। जब एक गाइडेंस मास्क में कई इंस्टेंस मौजूद होते हैं, तो हम अभी भी उन इंस्टेंस के लिए सही यूनियन अल्फा मैट उत्पन्न करते हैं। लाल तीर त्रुटियों या लाल बॉक्स में ज़ूम-इन क्षेत्र को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है।

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 13. V-HIM60 पर प्रस्तावित टेम्पोरल कंसिस्टेंसी मॉड्यूल की प्रभावशीलता (तालिका 6 का विस्तार)। द्वि-दिशात्मक Conv-GRU और फॉरवर्ड-बैकवर्ड फ्यूजन का संयोजन तीन टेस्ट सेट पर सर्वोत्तम समग्र प्रदर्शन प्राप्त करता है। बोल्ड प्रत्येक स्तर के लिए सर्वश्रेष्ठ को हाइलाइट करता है।

\

:::info लेखक:

(1) Chuong Huynh, यूनिवर्सिटी ऑफ मैरीलैंड, कॉलेज पार्क ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, यूनिवर्सिटी ऑफ मैरीलैंड, कॉलेज पार्क ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected])।

:::


:::info यह पेपर CC by 4.0 Deed (Attribution 4.0 International) लाइसेंस के तहत arxiv पर उपलब्ध है।

:::

\

मार्केट अवसर
Mask Network लोगो
Mask Network मूल्य(MASK)
$0.4238
$0.4238$0.4238
-1.82%
USD
Mask Network (MASK) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए [email protected] से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

क्रिप्टो के बदले USDT कहाँ से उधार लें: Clapp, Nexo, और Binance Loans के बीच चुनाव

क्रिप्टो के बदले USDT कहाँ से उधार लें: Clapp, Nexo, और Binance Loans के बीच चुनाव

Clapp, Nexo, और Binance Loans में क्रिप्टो के बदले USDT उधार लेने की तुलना करें। 2026 के लिए LTV अनुपात, ब्याज शर्तों और लचीले उधार विकल्पों की समीक्षा करें।
शेयर करें
Cryptodaily2026/02/28 02:57
Trvddun Token: विकेंद्रीकृत वाणिज्य को नवाचार और वैश्विक अपनाने के नए युग में आगे बढ़ाने के लिए रणनीतिक गठबंधन बनाना

Trvddun Token: विकेंद्रीकृत वाणिज्य को नवाचार और वैश्विक अपनाने के नए युग में आगे बढ़ाने के लिए रणनीतिक गठबंधन बनाना

ट्रैवडन टोकन (TRN) उन परियोजनाओं में से एक है जो ब्लॉकचेन और विकेंद्रीकृत वित्त की तेजी से विकसित हो रही दुनिया में लहरें पैदा कर रही है। स्वदेशी होने के नाते
शेयर करें
Techbullion2026/02/28 03:36
बार्कलेज़ भुगतान और जमा के लिए ब्लॉकचेन की समीक्षा करता है

बार्कलेज़ भुगतान और जमा के लिए ब्लॉकचेन की समीक्षा करता है

TLDR बार्कलेज़ भुगतान और जमा सहित मुख्य बैंकिंग सेवाओं के लिए ब्लॉकचेन तकनीक की खोज कर रहा है। बैंक ने कई तकनीकी कंपनियों से जानकारी का अनुरोध किया है
शेयर करें
Blockonomi2026/02/28 03:42