Анотація та 1. Вступ
Пов'язані роботи
MaGGIe
3.1. Ефективне маскований керований маттінг екземплярів
3.2. Темпоральна узгодженість особливостей-матів
Набори даних для маттінгу екземплярів
4.1. Маттінг екземплярів зображень та 4.2. Маттінг екземплярів відео
Експерименти
5.1. Попереднє навчання на даних зображень
5.2. Навчання на відео даних
Обговорення та посилання
\ Додатковий матеріал
Деталі архітектури
Маттінг зображень
8.1. Генерація та підготовка набору даних
8.2. Деталі навчання
8.3. Кількісні деталі
8.4. Більше якісних результатів на природних зображеннях
Маттінг відео
9.1. Генерація набору даних
9.2. Деталі навчання
9.3. Кількісні деталі
9.4. Більше якісних результатів
Цей розділ розширює процес маттінгу зображень, надаючи додаткові уявлення про генерацію наборів даних та всебічні порівняння з існуючими методами. Ми заглиблюємося у створення наборів даних I-HIM50K та M-HIM2K, пропонуємо детальний кількісний аналіз та представляємо подальші якісні результати для підкреслення ефективності нашого підходу.
Набір даних I-HIM50K був синтезований з набору даних HHM50K [50], який відомий своєю великою колекцією матів зображень людей. Ми використали модель MaskRCNN [14] Resnet-50 FPN 3x, навчену на наборі даних COCO, щоб відфільтрувати зображення з однією людиною, в результаті чого отримали підмножину з 35 053 зображень. Дотримуючись методології InstMatt [49], ці зображення були скомпоновані з різноманітними фонами з набору даних BG20K [29], створюючи сценарії з кількома екземплярами з 2-5 суб'єктами на зображення. Суб'єкти були змінені за розміром та розташовані для підтримання реалістичного масштабу та уникнення надмірного перекриття, про що свідчать IoU екземплярів, що не перевищують 30%. Цей процес дав 49 737 зображень із середнім значенням 2,28 екземпляра на зображення. Під час навчання маски керування генерувалися шляхом бінаризації альфа-матів та застосування операцій випадкового відкидання, розширення та ерозії. Зразки зображень з I-HIM50K відображені на рис. 10.
\ Набір даних M-HIM2K був розроблений для тестування стійкості моделі до різної якості масок. Він включає десять масок на екземпляр, згенерованих за допомогою різних моделей MaskRCNN. Більше інформації про моделі, використані для цього процесу генерації, показано в таблиці 8. Маски були зіставлені з екземплярами на основі найвищого IoU з еталонними альфа-матами, забезпечуючи мінімальний поріг IoU 70%. Маски, які не відповідали цьому порогу, були штучно згенеровані з еталону. Цей процес призвів до створення комплексного набору з 134 240 масок, з яких 117 660 для композитних та 16 600 для природних зображень, забезпечуючи надійний еталон для оцінки маскованого керованого маттінгу екземплярів. Повний набір даних I-HIM50K та M-HIM2K буде випущений після прийняття цієї роботи.
\ 
\ 
\
:::info Автори:
(1) Chuong Huynh, University of Maryland, College Park ([email protected]);
(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);
(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);
(4) Joon-Young Lee, Adobe Research ([email protected]).
:::
:::info Ця стаття доступна на arxiv за ліцензією CC by 4.0 Deed (Attribution 4.0 International).
:::
\


