MaGGIe 在自然影像的頭髮渲染和實例分離方面表現出色,在複雜的多實例場景中優於 MGM 和 InstMatt。MaGGIe 在自然影像的頭髮渲染和實例分離方面表現出色,在複雜的多實例場景中優於 MGM 和 InstMatt。

強健的遮罩引導去背:管理雜訊輸入與物件多樣性

摘要與 1. 引言

  1. 相關研究

  2. MaGGIe

    3.1. 高效遮罩引導實例摳圖

    3.2. 特徵-遮罩時間一致性

  3. 實例摳圖資料集

    4.1. 影像實例摳圖與 4.2. 視訊實例摳圖

  4. 實驗

    5.1. 在影像資料上預訓練

    5.2. 在視訊資料上訓練

  5. 討論與參考文獻

\ 補充材料

  1. 架構細節

  2. 影像摳圖

    8.1. 資料集生成與準備

    8.2. 訓練細節

    8.3. 定量細節

    8.4. 更多自然影像的定性結果

  3. 視訊摳圖

    9.1. 資料集生成

    9.2. 訓練細節

    9.3. 定量細節

    9.4. 更多定性結果

8.4. 更多自然影像的定性結果

圖 13 展示了我們模型在具有挑戰性場景中的表現,特別是在準確渲染頭髮區域方面。我們的框架在細節保留方面持續優於 MGM⋆,尤其是在複雜的實例互動中。與 InstMatt 相比,我們的模型在模糊區域展現出更優越的實例分離和細節準確度。

\ 圖 14 和圖 15 展示了我們的模型和先前研究在涉及多個實例的極端情況下的表現。雖然 MGM⋆ 在密集實例場景中面臨雜訊和準確度的困擾,但我們的模型保持了高精確度。InstMatt 在沒有額外訓練資料的情況下,在這些複雜設置中顯示出局限性。

\ 我們遮罩引導方法的穩健性在圖 16 中得到進一步證明。在此,我們強調了 MGM 變體和 SparseMat 在預測遮罩輸入中缺失部分時所面臨的挑戰,而我們的模型解決了這些問題。然而,重要的是要注意,我們的模型並非設計為人體實例分割網路。如圖 17 所示,我們的框架遵循輸入引導,即使在同一遮罩中存在多個實例時,也能確保精確的 alpha 遮罩預測。

\ 最後,圖 12 和圖 11 強調了我們模型的泛化能力。該模型準確地從背景中提取人體主體和其他物體,展示了其在各種場景和物體類型中的多功能性。

\ 所有範例均為無真實標註的網路影像,並使用來自 r101fpn400e 的遮罩作為引導。

\ 圖 13. 我們的模型在自然影像上生成高度詳細的 alpha 遮罩。我們的結果顯示,它在沒有昂貴計算成本的情況下準確且可與先前的實例無關和實例感知方法相媲美。紅色方框放大了每個實例的細節區域。(最佳以彩色和數位縮放檢視)。

\ 圖 14. 我們的框架在具有許多實例的極端情況下精確分離實例。雖然 MGM 經常導致實例之間的重疊,而 MGM⋆ 包含雜訊,但我們的結果與在外部資料集上訓練的 InstMatt 相當。紅色箭頭指示錯誤。(最佳以彩色和數位縮放檢視)。

\ 圖 15. 我們的框架在一次傳遞中精確分離實例。所提出的解決方案顯示出與 InstMatt 和 MGM 相當的結果,而無需運行五次預測/精煉。紅色箭頭指示錯誤。(最佳以彩色和數位縮放檢視)。

\ 圖 16. 與 MGM 和 SparseMat 不同,我們的模型對輸入引導遮罩具有穩健性。透過注意力頭,我們的模型對遮罩輸入產生更穩定的結果,而無需像 InstMatt 那樣在實例之間進行複雜的精煉。紅色箭頭指示錯誤。(最佳以彩色和數位縮放檢視)。

\ 圖 17. 我們的解決方案在多實例遮罩引導下正確運作。當一個引導遮罩中存在多個實例時,我們仍然為這些實例生成正確的聯合 alpha 遮罩。紅色箭頭指示錯誤或紅色方框中的放大區域。(最佳以彩色和數位縮放檢視)。

\ 表 12. HIM2K+M-HIM2K 上定量結果的細節(表 5 的延伸)。灰色表示未重新訓練的公開權重。

\ 表 12. HIM2K+M-HIM2K 上定量結果的細節(表 5 的延伸)。灰色表示未重新訓練的公開權重。(續)

\ 表 12. HIM2K+M-HIM2K 上定量結果的細節(表 5 的延伸)。灰色表示未重新訓練的公開權重。(續)

\ 表 12. HIM2K+M-HIM2K 上定量結果的細節(表 5 的延伸)。灰色表示未重新訓練的公開權重。(續)

\ 表 13. 所提出的時間一致性模組在 V-HIM60 上的有效性(表 6 的延伸)。雙向 Conv-GRU 和前向-後向融合的組合在三個測試集上達到了最佳整體效能。粗體突出顯示每個級別的最佳結果。

\

:::info 作者:

(1) Chuong Huynh,馬里蘭大學帕克分校 ([email protected]);

(2) Seoung Wug Oh,Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava,馬里蘭大學帕克分校 ([email protected]);

(4) Joon-Young Lee,Adobe Research ([email protected])。

:::


:::info 本論文可在 arxiv 上取得,採用 CC by 4.0 Deed(姓名標示 4.0 國際)授權。

:::

\

市場機遇
Mask Network 圖標
Mask Network實時價格 (MASK)
$0.58
$0.58$0.58
+1.15%
USD
Mask Network (MASK) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡

追覓 Dreame E1 手機將搭載億級畫素像素相機 保留 3.5mm 耳機孔

追覓 Dreame E1 手機將搭載億級畫素像素相機 保留 3.5mm 耳機孔

追覓發表首款中階手機 E1。分析指其目的非為競爭,而是將手機定位為自家家電生態系的硬體控制中樞,或作為高階產品的海外通路綑綁銷售配件。
分享
Cool3c2025/12/21 10:52
Bitcoin 8% 漲幅已使 2025 年 9 月成為其第二佳月份

Bitcoin 8% 漲幅已使 2025 年 9 月成為其第二佳月份

比特幣8%漲幅已使2025年9月成為其歷史第二佳表現 關鍵點:
  • 比特幣打破季節性趨勢,增加了8%,使今年9月成為自2012年以來表現最佳的9月。
  • 2025年9月需要看到20%的上漲才能成為比特幣有史以來最強勁的9月。
  • BTC價格波動性處於非常規牛市週期中罕見的低水平。
比特幣(BTC)今年9月的漲幅超過了自2012年以來的任何一年,創下新的牛市記錄。來自CoinGlass和BiTBO的歷史價格數據確認,以8%計,比特幣2025年9月的上漲幅度是其歷史第二佳。 比特幣以8%漲幅避開"災難9月" 9月傳統上是比特幣表現最弱的月份,平均虧損約8%。 BTC/USD月度回報(截圖)。來源:CoinGlass 今年,BTC價格季節性走勢的風險很高,因為歷史模式預示著下一個牛市高峰,而其他風險資產則不斷創下新的歷史高點。當黃金和標普500指數都處於價格探索階段時,BTC/USD在創下上個月的新高後,整個9月都處於盤整狀態。 然而,即使"僅"有8%的漲幅,今年9月的表現目前足以使其成為比特幣13年來最強勁的9月。一年中第九個月對比特幣多頭最有利可圖的唯一一次是在2012年,當時BTC/USD增加了約19.8%。去年,上漲幅度最高達到7.3%。 BTC/USD月度回報。來源:BiTBO BTC價格波動性消失 這些數據凸顯了比特幣非常不尋常的牛市高峰年。 相關:BTC「定價」未來走勢:本週比特幣需知的5件事 與之前的牛市不同,BTC價格波動性在2025年已經消退,這與長期市場參與者基於過往表現的預期相反。CoinGlass數據顯示,波動性降低到了十多年來未見的水平,從4月開始出現特別明顯的下降。 比特幣歷史波動性(截圖)。來源:CoinGlass 同時,鏈上分析公司Glassnode強調了...
分享
BitcoinEthereumNews2025/09/18 11:09
Intel 秀肌肉!全球首發 High-NA EUV 曝光機到手,14A 製程準備起飛啦!

Intel 秀肌肉!全球首發 High-NA EUV 曝光機到手,14A 製程準備起飛啦!

Intel率先導入High-NA EUV曝光機,加速14A製程研發。High-NA EUV技術提升晶片精度,助力Intel重返領先地位,備受矚目。半導體製程競賽進入白熱化階段!Intel(英特爾)近日宣布,已在美國俄勒岡州的 Fab D1X 研發中心完成 ASML 最新曝光系統 TWINSCAN EXE:5200B 的
分享
Techbang2025/12/21 10:30