MaGGIe unggul dalam rendering rambut dan pemisahan instance pada gambar natural, mengungguli MGM dan InstMatt dalam skenario kompleks multi-instance.MaGGIe unggul dalam rendering rambut dan pemisahan instance pada gambar natural, mengungguli MGM dan InstMatt dalam skenario kompleks multi-instance.

Matting Terpandu Mask yang Robust: Mengelola Input Berisik dan Keserbagunaan Objek

Abstrak dan 1. Pendahuluan

  1. Karya Terkait

  2. MaGGIe

    3.1. Efficient Masked Guided Instance Matting

    3.2. Feature-Matte Temporal Consistency

  3. Dataset Instance Matting

    4.1. Image Instance Matting dan 4.2. Video Instance Matting

  4. Eksperimen

    5.1. Pra-pelatihan pada data gambar

    5.2. Pelatihan pada data video

  5. Diskusi dan Referensi

\ Materi Tambahan

  1. Detail arsitektur

  2. Image matting

    8.1. Pembuatan dan persiapan dataset

    8.2. Detail pelatihan

    8.3. Detail kuantitatif

    8.4. Lebih banyak hasil kualitatif pada gambar alami

  3. Video matting

    9.1. Pembuatan dataset

    9.2. Detail pelatihan

    9.3. Detail kuantitatif

    9.4. Lebih banyak hasil kualitatif

8.4. Lebih banyak hasil kualitatif pada gambar alami

Gambar 13 menampilkan kinerja model kami dalam skenario yang menantang, khususnya dalam merender area rambut secara akurat. Framework kami secara konsisten mengungguli MGM⋆ dalam preservasi detail, terutama dalam interaksi instance yang kompleks. Dibandingkan dengan InstMatt, model kami menunjukkan pemisahan instance dan akurasi detail yang superior di area yang ambigu.

\ Gambar 14 dan Gambar 15 mengilustrasikan kinerja model kami dan karya sebelumnya dalam kasus ekstrem yang melibatkan banyak instance. Sementara MGM⋆ kesulitan dengan noise dan akurasi dalam skenario instance yang padat, model kami mempertahankan presisi tinggi. InstMatt, tanpa data pelatihan tambahan, menunjukkan keterbatasan dalam pengaturan kompleks ini.

\ Ketahanan pendekatan mask-guided kami ditunjukkan lebih lanjut pada Gambar 16. Di sini, kami menyoroti tantangan yang dihadapi oleh varian MGM dan SparseMat dalam memprediksi bagian yang hilang pada input mask, yang diatasi oleh model kami. Namun, penting untuk dicatat bahwa model kami tidak dirancang sebagai jaringan segmentasi instance manusia. Seperti ditunjukkan pada Gambar 17, framework kami mematuhi panduan input, memastikan prediksi alpha matte yang presisi bahkan dengan beberapa instance dalam mask yang sama.

\ Terakhir, Gambar 12 dan Gambar 11 menekankan kemampuan generalisasi model kami. Model secara akurat mengekstrak subjek manusia dan objek lainnya dari latar belakang, menunjukkan keserbagunaan di berbagai skenario dan jenis objek.

\ Semua contoh adalah gambar Internet tanpa ground-truth dan mask dari r101fpn400e digunakan sebagai panduan.

\ Gambar 13. Model kami menghasilkan alpha matte yang sangat detail pada gambar alami. Hasil kami menunjukkan bahwa itu akurat dan sebanding dengan metode instance-agnostic dan instance-awareness sebelumnya tanpa biaya komputasi yang mahal. Kotak merah memperbesar area detail untuk setiap instance. (Terbaik dilihat dalam warna dan zoom digital).

\ Gambar 14. Framework kami secara presisi memisahkan instance dalam kasus ekstrem dengan banyak instance. Sementara MGM sering menyebabkan tumpang tindih antara instance dan MGM⋆ mengandung noise, milik kami menghasilkan hasil yang setara dengan InstMatt yang dilatih pada dataset eksternal. Tanda panah merah menunjukkan kesalahan. (Terbaik dilihat dalam warna dan zoom digital).

\ Gambar 15. Framework kami secara presisi memisahkan instance dalam satu kali proses. Solusi yang diusulkan menunjukkan hasil yang sebanding dengan InstMatt dan MGM tanpa menjalankan prediksi/penyempurnaan lima kali. Tanda panah merah menunjukkan kesalahan. (Terbaik dilihat dalam warna dan zoom digital).

\ Gambar 16. Berbeda dengan MGM dan SparseMat, model kami tangguh terhadap mask panduan input. Dengan attention head, model kami menghasilkan hasil yang lebih stabil terhadap input mask tanpa penyempurnaan kompleks antara instance seperti InstMatt. Tanda panah merah menunjukkan kesalahan. (Terbaik dilihat dalam warna dan zoom digital).

\ Gambar 17. Solusi kami bekerja dengan benar dengan panduan mask multi-instance. Ketika beberapa instance ada dalam satu mask panduan, kami tetap menghasilkan alpha matte gabungan yang benar untuk instance tersebut. Tanda panah merah menunjukkan kesalahan atau area zoom-in di kotak merah. (Terbaik dilihat dalam warna dan zoom digital).

\ Tabel 12. Detail hasil kuantitatif pada HIM2K+M-HIM2K (Perluasan Tabel 5). Abu-abu menunjukkan bobot publik tanpa pelatihan ulang.

\ Tabel 12. Detail hasil kuantitatif pada HIM2K+M-HIM2K (Perluasan Tabel 5). Abu-abu menunjukkan bobot publik tanpa pelatihan ulang. (Lanjutan)

\ Tabel 12. Detail hasil kuantitatif pada HIM2K+M-HIM2K (Perluasan Tabel 5). Abu-abu menunjukkan bobot publik tanpa pelatihan ulang. (Lanjutan)

\ Tabel 12. Detail hasil kuantitatif pada HIM2K+M-HIM2K (Perluasan Tabel 5). Abu-abu menunjukkan bobot publik tanpa pelatihan ulang. (Lanjutan)

\ Tabel 13. Efektivitas modul konsistensi temporal yang diusulkan pada V-HIM60 (Perluasan Tabel 6). Kombinasi Conv-GRU bi-directional dan fusi forward-backward mencapai kinerja keseluruhan terbaik pada tiga set tes. Tebal menyoroti yang terbaik untuk setiap level.

\

:::info Penulis:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info Makalah ini tersedia di arxiv di bawah lisensi CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Peluang Pasar
Logo Mask Network
Harga Mask Network(MASK)
$0.5789
$0.5789$0.5789
+0.95%
USD
Grafik Harga Live Mask Network (MASK)
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.