:::info Authors:
(1) Chengxiang Fan, з рівним внеском від Університету Чжецзян, Китай;
(2) Muzhi Zhu, з рівним внеском від Університету Чжецзян, Китай;
(3) Hao Chen, Університет Чжецзян, Китай ([email protected]);
(4) Yang Liu, Університет Чжецзян, Китай;
(5) Weijia Wu, Університет Чжецзян, Китай;
(6) Huaqi Zhang, vivo Mobile Communication Co..
(7) Chunhua Shen, Університет Чжецзян, Китай ([email protected]).
:::
Анотація та 1 Вступ
Огляд літератури
Наш запропонований DiverGen
3.1. Аналіз розподілу даних
3.2. Покращення різноманітності генеративних даних
3.3. Генеративний конвеєр
Експерименти
4.1. Налаштування
4.2. Основні результати
4.3. Аблаційні дослідження
Висновки, подяки та посилання
\ Додаток
A. Деталі реалізації
B. Візуалізація
Сегментація об'єктів потребує великої кількості даних, і з збільшенням ємності моделі масштаб даних стає вирішальним для підвищення точності. Більшість сучасних наборів даних для сегментації об'єктів вимагають дорогої ручної анотації, що обмежує їх масштаб. Моделі, навчені на таких даних, схильні до перенавчання на навчальному наборі, особливо для рідкісних категорій. Хоча нещодавні роботи заглибилися у використання генеративних моделей для створення синтетичних наборів даних для доповнення даних, ці підходи не ефективно використовують повний потенціал генеративних моделей.
\ Для вирішення цих проблем ми представляємо більш ефективну стратегію побудови генеративних наборів даних для доповнення даних, яка називається DiverGen. По-перше, ми пояснюємо роль генеративних даних з точки зору розбіжності розподілу. Ми досліджуємо вплив різних даних на розподіл, який вивчає модель. Ми стверджуємо, що генеративні дані можуть розширити розподіл даних, який модель може вивчити, таким чином зменшуючи перенавчання. Крім того, ми виявили, що різноманітність генеративних даних є вирішальною для покращення продуктивності моделі, і покращуємо її за допомогою різних стратегій, включаючи різноманітність категорій, різноманітність запитів та різноманітність генеративних моделей. За допомогою цих стратегій ми можемо масштабувати дані до мільйонів, зберігаючи тенденцію покращення продуктивності моделі. На наборі даних LVIS DiverGen значно перевершує сильну модель X-Paste, досягаючи +1.1 box AP та +1.1 mask AP для всіх категорій, і +1.9 box AP та +2.5 mask AP для рідкісних категорій. Наш код доступний за адресою https://github.com/aim-uofa/DiverGen.
Сегментація об'єктів [2, 4, 9] є одним із складних завдань у комп'ютерному зорі, що вимагає прогнозування масок та категорій для об'єктів на зображенні, що служить основою для численних візуальних застосувань. З покращенням здатності моделей до навчання зростає потреба в навчальних даних. Однак сучасні набори даних для сегментації об'єктів сильно залежать від ручної анотації, що є трудомістким і дорогим процесом, а масштаб набору даних не може задовольнити потреби навчання моделей. Незважаючи на нещодавню появу автоматично анотованого набору даних SA-1B [12], йому бракує анотацій категорій, що не відповідає вимогам сегментації об'єктів. Тим часом, постійний розвиток генеративної моделі значно покращив керованість та реалістичність згенерованих зразків. Наприклад, нещодавня дифузійна модель text2image [22, 24] може генерувати високоякісні зображення, що відповідають вхідним запитам. Тому сучасні методи [27, 28, 34] використовують генеративні моделі для доповнення даних, генеруючи набори даних для доповнення навчання моделей на реальних наборах даних та покращення продуктивності моделі. Хоча сучасні методи запропонували різні стратегії, що дозволяють генеративним даним підвищити продуктивність моделі, все ще існують деякі обмеження: 1) Існуючі методи не повністю використовують потенціал генеративних моделей. По-перше, деякі методи [34] не лише використовують генеративні дані, але й потребують збору зображень з інтернету, що значно ускладнює отримання даних у великому масштабі. Тим часом, зміст даних, зібраних з інтернету, є неконтрольованим і потребує додаткової перевірки. По-друге, існуючі методи не повністю використовують керованість генеративних моделей. Сучасні методи часто використовують шаблони, розроблені вручну, для створення запитів, обмежуючи потенційний вихід генеративних моделей. 2) Існуючі методи [27, 28] часто пояснюють роль генеративних даних з точки зору дисбалансу класів або нестачі даних, не враховуючи розбіжність між реальними даними та генеративними даними. Крім того, ці методи зазвичай показують покращену продуктивність моделі лише в сценаріях з обмеженою кількістю реальних зразків, а ефективність генеративних даних на існуючих великомасштабних реальних наборах даних, таких як LVIS [8], не досліджується ретельно.
\ У цій статті ми спочатку досліджуємо роль генеративних даних з точки зору розбіжності розподілу, вирішуючи два основні питання: 1) Чому доповнення генеративними даними покращує продуктивність моделі? 2) Які типи генеративних даних корисні для покращення продуктивності моделі? По-перше, ми виявили, що існують розбіжності між розподілом, вивченим моделлю на обмежених реальних навчальних даних, та розподілом реальних даних. Ми візуалізували дані та виявили, що порівняно з реальними даними, генеративні дані можуть розширити розподіл даних, який модель може вивчити. Крім того, ми виявили, що роль додавання генеративних даних полягає у зменшенні упередженості реальних навчальних даних, ефективно зменшуючи перенавчання на навчальних даних. По-друге, ми виявили, що також існують розбіжності між розподілом генеративних даних та розподілом реальних даних. Якщо ці розбіжності не обробляти належним чином, повний потенціал генеративної моделі не може бути використаний. Проводячи кілька експериментів, ми виявили, що використання різноманітних генеративних даних дозволяє моделям краще адаптуватися до цих розбіжностей, покращуючи продуктивність моделі.
\ На основі вищенаведеного аналізу ми пропонуємо ефективну стратегію для підвищення різноманітності даних, а саме Покращення різноманітності генеративних даних. Ми розробляємо різні стратегії підвищення різноманітності для збільшення різноманітності даних з точки зору різноманітності категорій, різноманітності запитів та різноманітності генеративних моделей. Для різноманітності категорій ми спостерігаємо, що моделі, навчені на генеративних даних, що охоплюють усі категорії, краще адаптуються до розбіжності розподілу, ніж моделі, навчені на часткових категоріях. Тому ми вводимо не лише категорії з LVIS [8], але й додаткові категорії з ImageNet-1K [23] для підвищення різноманітності категорій при генерації даних, тим самим посилюючи адаптивність моделі до розбіжності розподілу. Для різноманітності запитів ми виявили, що з збільшенням масштабу генеративного набору даних, запити, розроблені вручну, не можуть масштабуватися до відповідного рівня, обмежуючи різноманітність вихідних зображень з генеративної моделі. Таким чином, ми розробляємо набір різноманітних стратегій генерації запитів для використання великих мовних моделей, таких як ChatGPT, для генерації запитів, вимагаючи від великих мовних моделей виводити максимально різноманітні запити з обмеженнями. Поєднуючи запити, розроблені вручну, та запити, розроблені ChatGPT, ми ефективно збагачуємо різноманітність запитів та додатково покращуємо різноманітність генеративних даних. Для різноманітності генеративних моделей ми виявили, що дані з різних генеративних моделей також демонструють розбіжності розподілу. Вплив на моделі даних з різних генеративних моделей під час навчання може підвищити адаптивність до різних розподілів. Тому ми використовуємо Stable Diffusion [22] та DeepFloyd-IF [24] для генерації зображень для всіх категорій окремо та змішуємо два типи даних під час навчання для збільшення різноманітності даних.
\ Водночас ми оптимізуємо робочий процес генерації даних і пропонуємо чотириетапний генеративний конвеєр, що складається з генерації об'єктів, анотації об'єктів, фільтрації об'єктів та доповнення об'єктів. На етапі генерації об'єктів ми використовуємо наше запропоноване Покращення різноманітності генеративних даних для підвищення різноманітності даних, створюючи різноманітні сирі дані. На етапі анотації об'єктів ми представляємо стратегію анотації під назвою SAM-background. Ця стратегія отримує високоякісні анотації, використовуючи фонові точки як вхідні запити для SAM [12], отримуючи анотації сирих даних. На етапі фільтрації об'єктів ми вводимо метрику під назвою CLIP inter-similarity. Використовуючи кодувальник зображень CLIP [21], ми витягуємо вбудовування з генеративних та реальних даних, а потім обчислюємо їх подібність. Нижча подібність вказує на нижчу якість даних. Після фільтрації ми отримуємо остаточний генеративний набір даних. На етапі доповнення об'єктів ми використовуємо стратегію вставки об'єктів [34] для підвищення ефективності навчання моделі на генеративних даних.
\ Експерименти демонструють, що наші розроблені стратегії різноманітності даних можуть ефективно покращити продуктивність моделі та зберегти тенденцію підвищення продуктивності з збільшенням масштабу даних до мільйонного рівня, що дозволяє використовувати великомасштабні генеративні дані для доповнення даних. На наборі даних LVIS DiverGen значно перевершує сильну модель X-Paste [34], досягаючи +1.1 box AP [8] та +1.1 mask AP для всіх категорій, і +1.9 box AP та +2.5 mask AP для рідк


