Abstrak dan 1. Pendahuluan
Karya Terkait
MaGGIe
3.1. Efficient Masked Guided Instance Matting
3.2. Feature-Matte Temporal Consistency
Dataset Instance Matting
4.1. Image Instance Matting dan 4.2. Video Instance Matting
Eksperimen
5.1. Pra-pelatihan pada data gambar
5.2. Pelatihan pada data video
Diskusi dan Referensi
\ Materi Tambahan
Detail arsitektur
Image matting
8.1. Pembuatan dan persiapan dataset
8.2. Detail pelatihan
8.3. Detail kuantitatif
8.4. Lebih banyak hasil kualitatif pada gambar alami
Video matting
9.1. Pembuatan dataset
9.2. Detail pelatihan
9.3. Detail kuantitatif
9.4. Lebih banyak hasil kualitatif
Bagian ini memperluas proses image matting, memberikan wawasan tambahan tentang pembuatan dataset dan perbandingan komprehensif dengan metode yang ada. Kami menyelami pembuatan dataset I-HIM50K dan M-HIM2K, menawarkan analisis kuantitatif yang detail, dan menyajikan hasil kualitatif lebih lanjut untuk menggarisbawahi efektivitas pendekatan kami.
Dataset I-HIM50K disintesis dari dataset HHM50K [50], yang dikenal dengan koleksi ekstensif matte gambar manusia. Kami menggunakan model MaskRCNN [14] Resnet-50 FPN 3x, yang dilatih pada dataset COCO, untuk menyaring gambar satu orang, menghasilkan subset 35.053 gambar. Mengikuti metodologi InstMatt [49], gambar-gambar ini digabungkan dengan latar belakang yang beragam dari dataset BG20K [29], menciptakan skenario multi-instance dengan 2-5 subjek per gambar. Subjek diubah ukurannya dan diposisikan untuk mempertahankan skala realistis dan menghindari tumpang tindih yang berlebihan, seperti yang ditunjukkan oleh IoU instance yang tidak melebihi 30%. Proses ini menghasilkan 49.737 gambar, dengan rata-rata 2,28 instance per gambar. Selama pelatihan, masker panduan dihasilkan dengan membinerkan matte alpha dan menerapkan operasi dropout, dilasi, dan erosi acak. Contoh gambar dari I-HIM50K ditampilkan dalam Gambar 10.
\ Dataset M-HIM2K dirancang untuk menguji ketahanan model terhadap kualitas masker yang bervariasi. Dataset ini terdiri dari sepuluh masker per instance, yang dihasilkan menggunakan berbagai model MaskRCNN. Informasi lebih lanjut tentang model yang digunakan untuk proses pembuatan ini ditunjukkan dalam Tabel 8. Masker dicocokkan dengan instance berdasarkan IoU tertinggi dengan matte alpha ground truth, memastikan ambang batas IoU minimum 70%. Masker yang tidak memenuhi ambang batas ini dihasilkan secara artifisial dari ground truth. Proses ini menghasilkan set komprehensif 134.240 masker, dengan 117.660 untuk gambar komposit dan 16.600 untuk gambar alami, memberikan benchmark yang kuat untuk mengevaluasi masked guided instance matting. Dataset lengkap I-HIM50K dan M-HIM2K akan dirilis setelah penerimaan karya ini.
\ 
\ 
\
:::info Penulis:
(1) Chuong Huynh, University of Maryland, College Park ([email protected]);
(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);
(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);
(4) Joon-Young Lee, Adobe Research ([email protected]).
:::
:::info Makalah ini tersedia di arxiv di bawah lisensi CC by 4.0 Deed (Attribution 4.0 International).
:::
\


