MaGGIe प्राकृतिक छवियों पर बालों की रेंडरिंग और इंस्टेंस सेपरेशन में उत्कृष्ट प्रदर्शन करता है, जटिल, मल्टी-इंस्टेंस परिदृश्यों में MGM और InstMatt से बेहतर है।MaGGIe प्राकृतिक छवियों पर बालों की रेंडरिंग और इंस्टेंस सेपरेशन में उत्कृष्ट प्रदर्शन करता है, जटिल, मल्टी-इंस्टेंस परिदृश्यों में MGM और InstMatt से बेहतर है।

मजबूत मास्क-निर्देशित मैटिंग: शोरयुक्त इनपुट और ऑब्जेक्ट बहुमुखी प्रतिभा का प्रबंधन

2025/12/21 02:00
3 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया [email protected] पर हमसे संपर्क करें

सार और 1. परिचय

  1. संबंधित कार्य

  2. MaGGIe

    3.1. कुशल मास्क्ड गाइडेड इंस्टेंस मैटिंग

    3.2. फीचर-मैट टेम्पोरल कंसिस्टेंसी

  3. इंस्टेंस मैटिंग डेटासेट

    4.1. इमेज इंस्टेंस मैटिंग और 4.2. वीडियो इंस्टेंस मैटिंग

  4. प्रयोग

    5.1. इमेज डेटा पर प्री-ट्रेनिंग

    5.2. वीडियो डेटा पर ट्रेनिंग

  5. चर्चा और संदर्भ

\ पूरक सामग्री

  1. आर्किटेक्चर विवरण

  2. इमेज मैटिंग

    8.1. डेटासेट जनरेशन और तैयारी

    8.2. ट्रेनिंग विवरण

    8.3. मात्रात्मक विवरण

    8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम

  3. वीडियो मैटिंग

    9.1. डेटासेट जनरेशन

    9.2. ट्रेनिंग विवरण

    9.3. मात्रात्मक विवरण

    9.4. अधिक गुणात्मक परिणाम

8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम

चित्र 13 चुनौतीपूर्ण परिदृश्यों में हमारे मॉडल के प्रदर्शन को प्रदर्शित करता है, विशेष रूप से बालों के क्षेत्रों को सटीक रूप से रेंडर करने में। हमारा फ्रेमवर्क विवरण संरक्षण में लगातार MGM⋆ से बेहतर प्रदर्शन करता है, खासकर जटिल इंस्टेंस इंटरैक्शन में। InstMatt की तुलना में, हमारा मॉडल अस्पष्ट क्षेत्रों में बेहतर इंस्टेंस पृथक्करण और विवरण सटीकता प्रदर्शित करता है।

\ चित्र 14 और चित्र 15 कई इंस्टेंस वाले चरम मामलों में हमारे मॉडल और पिछले कार्यों के प्रदर्शन को दर्शाते हैं। जबकि MGM⋆ घने इंस्टेंस परिदृश्यों में शोर और सटीकता से जूझता है, हमारा मॉडल उच्च सटीकता बनाए रखता है। InstMatt, अतिरिक्त ट्रेनिंग डेटा के बिना, इन जटिल सेटिंग्स में सीमाएं दिखाता है।

\ हमारे मास्क-गाइडेड दृष्टिकोण की मजबूती चित्र 16 में और प्रदर्शित की गई है। यहां, हम MGM वेरिएंट और SparseMat द्वारा मास्क इनपुट में लापता भागों की भविष्यवाणी करने में सामना की जाने वाली चुनौतियों को उजागर करते हैं, जिन्हें हमारा मॉडल संबोधित करता है। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि हमारा मॉडल मानव इंस्टेंस सेगमेंटेशन नेटवर्क के रूप में डिज़ाइन नहीं किया गया है। जैसा कि चित्र 17 में दिखाया गया है, हमारा फ्रेमवर्क इनपुट मार्गदर्शन का पालन करता है, एक ही मास्क में कई इंस्टेंस के साथ भी सटीक अल्फा मैट भविष्यवाणी सुनिश्चित करता है।

\ अंत में, चित्र 12 और चित्र 11 हमारे मॉडल की सामान्यीकरण क्षमताओं पर जोर देते हैं। मॉडल पृष्ठभूमि से मानव विषयों और अन्य वस्तुओं दोनों को सटीक रूप से निकालता है, विभिन्न परिदृश्यों और वस्तु प्रकारों में इसकी बहुमुखी प्रतिभा को प्रदर्शित करता है।

\ सभी उदाहरण बिना ग्राउंड-ट्रुथ वाली इंटरनेट छवियां हैं और r101fpn400e से मास्क को मार्गदर्शन के रूप में उपयोग किया गया है।

\ चित्र 13. हमारा मॉडल प्राकृतिक छवियों पर अत्यधिक विस्तृत अल्फा मैट उत्पन्न करता है। हमारे परिणाम दिखाते हैं कि यह सटीक है और महंगी कम्प्यूटेशनल लागत के बिना पिछले इंस्टेंस-अज्ञेयवादी और इंस्टेंस-जागरूकता विधियों के साथ तुलनीय है। लाल वर्ग प्रत्येक इंस्टेंस के लिए विवरण क्षेत्रों में ज़ूम करते हैं। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 14. हमारे फ्रेमवर्क कई इंस्टेंस वाले चरम मामले में इंस्टेंस को सटीक रूप से अलग करते हैं। जबकि MGM अक्सर इंस्टेंस के बीच ओवरलैपिंग का कारण बनता है और MGM⋆ में शोर होता है, हमारा बाहरी डेटासेट पर प्रशिक्षित InstMatt के साथ समान परिणाम उत्पन्न करता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 15. हमारे फ्रेमवर्क एक ही पास में इंस्टेंस को सटीक रूप से अलग करते हैं। प्रस्तावित समाधान भविष्यवाणी/परिष्करण को पांच बार चलाए बिना InstMatt और MGM के साथ तुलनीय परिणाम दिखाता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 16. MGM और SparseMat के विपरीत, हमारा मॉडल इनपुट गाइडेंस मास्क के लिए मजबूत है। अटेंशन हेड के साथ, हमारा मॉडल InstMatt जैसे इंस्टेंस के बीच जटिल परिष्करण के बिना मास्क इनपुट के लिए अधिक स्थिर परिणाम उत्पन्न करता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 17. हमारा समाधान मल्टी-इंस्टेंस मास्क गाइडेंस के साथ सही ढंग से काम करता है। जब एक गाइडेंस मास्क में कई इंस्टेंस मौजूद होते हैं, तो हम अभी भी उन इंस्टेंस के लिए सही यूनियन अल्फा मैट उत्पन्न करते हैं। लाल तीर त्रुटियों या लाल बॉक्स में ज़ूम-इन क्षेत्र को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है।

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 13. V-HIM60 पर प्रस्तावित टेम्पोरल कंसिस्टेंसी मॉड्यूल की प्रभावशीलता (तालिका 6 का विस्तार)। द्वि-दिशात्मक Conv-GRU और फॉरवर्ड-बैकवर्ड फ्यूजन का संयोजन तीन टेस्ट सेट पर सर्वोत्तम समग्र प्रदर्शन प्राप्त करता है। बोल्ड प्रत्येक स्तर के लिए सर्वश्रेष्ठ को हाइलाइट करता है।

\

:::info लेखक:

(1) Chuong Huynh, यूनिवर्सिटी ऑफ मैरीलैंड, कॉलेज पार्क ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, यूनिवर्सिटी ऑफ मैरीलैंड, कॉलेज पार्क ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected])।

:::


:::info यह पेपर CC by 4.0 Deed (Attribution 4.0 International) लाइसेंस के तहत arxiv पर उपलब्ध है।

:::

\

मार्केट अवसर
Mask Network लोगो
Mask Network मूल्य(MASK)
$0.4363
$0.4363$0.4363
+0.87%
USD
Mask Network (MASK) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए [email protected] से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

संस्थागत | विश्व की अग्रणी एक्सचेंज इंफ्रा संगठन ने Kraken क्रिप्टो एक्सचेंज की पैरेंट कंपनी में 1.5% हिस्सेदारी का अधिग्रहण किया

संस्थागत | विश्व की अग्रणी एक्सचेंज इंफ्रा संगठन ने Kraken क्रिप्टो एक्सचेंज की पैरेंट कंपनी में 1.5% हिस्सेदारी का अधिग्रहण किया

ड्यूश बोर्स ने क्रैकन की पैरेंट कंपनी पेवर्ड इंक. में $200 मिलियन का निवेश किया है और सेकेंडरी शेयर खरीद के माध्यम से 1.5% पूर्ण रूप से डाइल्यूटेड हिस्सेदारी हासिल की है, कंपनी ने कहा
शेयर करें
BitcoinKE2026/04/15 17:00
क्वालकॉम मेक इन अफ्रीका 2026 कोहॉर्ट के लिए चुने गए 2 नाइजीरियाई स्टार्टअप्स से मिलें

क्वालकॉम मेक इन अफ्रीका 2026 कोहॉर्ट के लिए चुने गए 2 नाइजीरियाई स्टार्टअप्स से मिलें

क्वालकॉम मेक इन अफ्रीका प्रोग्राम 2026 कोहॉर्ट के लिए चुने गए 10 स्टार्टअप्स के साथ वापस आ रहा है। यह प्रोग्राम…
शेयर करें
Technext2026/04/15 18:10
एनालिस्ट बोले Bitcoin का ‘Big Flush’ अभी बाकी

एनालिस्ट बोले Bitcoin का ‘Big Flush’ अभी बाकी

विश्लेषक इवान लिल्जेक्विस्ट ने चेतावनी दी है कि बिटकॉइन का बॉटम अभी नहीं आया है, जबकि स्ट्रैटेजी-ड्रिवन खरीदारी के बावजूद बड़ी फ्लश अभी बाकी है। The post एनालिस
शेयर करें
Beincrypto HI2026/04/15 19:27

24/7 लाइव न्यूज़

अधिक

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!