DiverGen представляет метод генеративного расширения данных, ориентированный на разнообразие и масштабируемость, например, для сегментации. DiverGen исследует влияние генерации образцов с точки зрения расхождения распределения, в отличие от предыдущих работ, которые рассматривают их как простые дополнения для разреженных данных. Это демонстрирует, как разнообразные синтетические данные уменьшают переобучение и расширяют пространство обучаемых данных.DiverGen представляет метод генеративного расширения данных, ориентированный на разнообразие и масштабируемость, например, для сегментации. DiverGen исследует влияние генерации образцов с точки зрения расхождения распределения, в отличие от предыдущих работ, которые рассматривают их как простые дополнения для разреженных данных. Это демонстрирует, как разнообразные синтетические данные уменьшают переобучение и расширяют пространство обучаемых данных.

DiverGen делает обучение сегментации экземпляров в больших масштабах более эффективным

2025/11/12 00:05

:::info Авторы:

(1) Чэнсян Фань, с равным вкладом из Чжэцзянского университета, Китай;

(2) Мучжи Чжу, с равным вкладом из Чжэцзянского университета, Китай;

(3) Хао Чэнь, Чжэцзянский университет, Китай ([email protected]);

(4) Ян Лю, Чжэцзянский университет, Китай;

(5) Вэйцзя У, Чжэцзянский университет, Китай;

(6) Хуаци Чжан, vivo Mobile Communication Co..

(7) Чуньхуа Шэнь, Чжэцзянский университет, Китай ([email protected]).

:::

Резюме и 1 Введение

  1. Связанные работы

  2. Наш предложенный DiverGen

    3.1. Анализ распределения данных

    3.2. Улучшение разнообразия генеративных данных

    3.3. Генеративный конвейер

  3. Эксперименты

    4.1. Настройки

    4.2. Основные результаты

    4.3. Исследования абляции

  4. Выводы, благодарности и ссылки

\ Приложение

A. Детали реализации

B. Визуализация

Резюме

Сегментация экземпляров требует большого количества данных, и с увеличением емкости модели масштаб данных становится решающим для повышения точности. Большинство современных наборов данных для сегментации экземпляров требуют дорогостоящей ручной аннотации, что ограничивает их масштаб. Модели, обученные на таких данных, склонны к переобучению на обучающем наборе, особенно для редких категорий. Хотя недавние работы углубились в использование генеративных моделей для создания синтетических наборов данных для аугментации данных, эти подходы не эффективно используют полный потенциал генеративных моделей.

\ Для решения этих проблем мы представляем более эффективную стратегию построения генеративных наборов данных для аугментации данных, названную DiverGen. Во-первых, мы объясняем роль генеративных данных с точки зрения расхождения распределений. Мы исследуем влияние различных данных на распределение, изучаемое моделью. Мы утверждаем, что генеративные данные могут расширить распределение данных, которое модель может изучить, тем самым смягчая переобучение. Кроме того, мы обнаружили, что разнообразие генеративных данных имеет решающее значение для улучшения производительности модели, и улучшаем его с помощью различных стратегий, включая разнообразие категорий, разнообразие подсказок и разнообразие генеративных моделей. С помощью этих стратегий мы можем масштабировать данные до миллионов, сохраняя тенденцию улучшения производительности модели. На наборе данных LVIS DiverGen значительно превосходит сильную модель X-Paste, достигая +1,1 box AP и +1,1 mask AP по всем категориям, и +1,9 box AP и +2,5 mask AP для редких категорий. Наш код доступен по адресу https://github.com/aim-uofa/DiverGen.

1. Введение

Сегментация экземпляров [2, 4, 9] является одной из сложных задач в компьютерном зрении, требующей предсказания масок и категорий для экземпляров на изображении, что служит основой для многочисленных визуальных приложений. По мере улучшения обучающих способностей моделей растет спрос на обучающие данные. Однако текущие наборы данных для сегментации экземпляров сильно зависят от ручной аннотации, что требует времени и затрат, а масштаб набора данных не может удовлетворить потребности обучения моделей. Несмотря на недавнее появление автоматически аннотированного набора данных SA-1B [12], в нем отсутствуют аннотации категорий, что не соответствует требованиям сегментации экземпляров. Между тем, продолжающееся развитие генеративной модели значительно улучшило управляемость и реалистичность генерируемых образцов. Например, недавняя диффузионная модель text2image [22, 24] может генерировать высококачественные изображения, соответствующие входным подсказкам. Поэтому текущие методы [27, 28, 34] используют генеративные модели для аугментации данных путем создания наборов данных для дополнения обучения моделей на реальных наборах данных и улучшения производительности модели. Хотя текущие методы предложили различные стратегии, позволяющие генеративным данным повысить производительность модели, все еще существуют некоторые ограничения: 1) Существующие методы не полностью использовали потенциал генеративных моделей. Во-первых, некоторые методы [34] не только используют генеративные данные, но и нуждаются в сборе изображений из интернета, что значительно затрудняет получение данных в большом масштабе. Между тем, содержание данных, собранных из интернета, неконтролируемо и требует дополнительной проверки. Во-вторых, существующие методы не полностью используют управляемость генеративных моделей. Текущие методы часто используют шаблоны, разработанные вручную, для создания подсказок, ограничивая потенциальный вывод генеративных моделей. 2) Существующие методы [27, 28] часто объясняют роль генеративных данных с точки зрения дисбаланса классов или нехватки данных, не учитывая расхождение между реальными данными и генеративными данными. Более того, эти методы обычно показывают улучшенную производительность модели только в сценариях с ограниченным количеством реальных образцов, а эффективность генеративных данных на существующих крупномасштабных реальных наборах данных, таких как LVIS [8], не исследуется тщательно.

\ В этой статье мы сначала исследуем роль генеративных данных с точки зрения расхождения распределений, отвечая на два основных вопроса: 1) Почему аугментация генеративными данными улучшает производительность модели? 2) Какие типы генеративных данных полезны для улучшения производительности модели? Во-первых, мы обнаружили, что существуют расхождения между распределением, изученным моделью на ограниченных реальных обучающих данных, и распределением реальных данных. Мы визуализировали данные и обнаружили, что по сравнению с реальными данными, генеративные данные могут расширить распределение данных, которое модель может изучить. Кроме того, мы обнаружили, что роль добавления генеративных данных заключается в смягчении смещения реальных обучающих данных, эффективно снижая переобучение на обучающих данных. Во-вторых, мы обнаружили, что также существуют расхождения между распределением генеративных данных и распределением реальных данных. Если эти расхождения не обрабатываются должным образом, полный потенциал генеративной модели не может быть использован. Проведя несколько экспериментов, мы обнаружили, что использование разнообразных генеративных данных позволяет моделям лучше адаптироваться к этим расхождениям, улучшая производительность модели.

\ На основе вышеприведенного анализа мы предлагаем эффективную стратегию для улучшения разнообразия данных, а именно Улучшение разнообразия генеративных данных. Мы разрабатываем различные стратегии улучшения разнообразия для увеличения разнообразия данных с точки зрения разнообразия категорий, разнообразия подсказок и разнообразия генеративных моделей. Для разнообразия категорий мы наблюдаем, что модели, обученные на генеративных данных, охватывающих все категории, лучше адаптируются к расхождению распределений, чем модели, обученные на частичных категориях. Поэтому мы вводим не только категории из LVIS [8], но и дополнительные категории из ImageNet-1K [23] для улучшения разнообразия категорий при генерации данных, тем самым усиливая адаптивность модели к расхождению распределений. Для разнообразия подсказок мы обнаружили, что по мере увеличения масштаба генеративного набора данных, подсказки, разработанные вручную, не могут масштабироваться до соответствующего уровня, ограничивая разнообразие выходных изображений из генеративной модели. Таким образом, мы разрабатываем набор стратегий генерации разнообразных подсказок для использования больших языковых моделей, таких как ChatGPT, для генерации подсказок, требуя от больших языковых моделей выводить максимально разнообразные подсказки в рамках ограничений. Комбинируя подсказки, разработанные вручную, и подсказки, разработанные ChatGPT, мы эффективно обогащаем разнообразие подсказок и дальше улучшаем разнообразие генеративных данных. Для разнообразия генеративных моделей мы обнаружили, что данные из разных генеративных моделей также демонстрируют расхождения распределений. Воздействие на модели данных из разных генеративных моделей во время обучения может улучшить адаптивность к различным распределениям. Поэтому мы используем Stable Diffusion [22] и DeepFloyd-IF [24] для генерации изображений для всех категорий отдельно и смешиваем два типа данных во время обучения для увеличения разнообразия данных.

\ В то же время мы оптимизируем рабочий процесс генерации данных и предлагаем четырехэтапный генеративный конвейер, состоящий из генерации экземпляров, аннотации экземпляров, фильтрации экземпляров и аугментации экземпляров. На этапе генерации экземпляров мы используем наше предложенное Улучшение разнообразия генеративных данных для улучшения разнообразия данных, производя разнообразные необработанные данные. На этапе аннотации экземпляров мы вводим стратегию аннотации, называемую SAM-background. Эта стратегия получает высококачественные аннотации, используя фоновые точки в качестве входных подсказок для SAM [12], получая аннотации необработанных данных. На этапе фильтрации экземпляров мы вводим метрику, называемую CLIP inter-similarity. Используя кодировщик изображений CLIP [21], мы извлекаем встраивания из генеративных и реальных данных, а затем вычисляем их сходство. Более низкое сходство указывает на более низкое качество данных. После фильтрации мы получаем окончательный генеративный набор данных. На этапе аугментации экземпляров мы используем стратегию вставки экземпляров [34] для повышения эффективности обучения модели на генеративных данных.

\ Эксперименты демонстрируют, что наши разработанные стратегии разнообразия данных могут эффективно улучшать производительность модели и поддерживать тенденцию прироста производительности по мере увеличения масштаба данных до уровня миллионов, что позволяет использовать крупномасштабные генеративные данные для аугментации данных. На наборе данных LVIS DiverGen значительно превосходит сильную модель X-Paste [34], достигая +1,1 box AP [8] и +1,1 mask AP по всем категориям, и +1,9 box AP и +2,5 mask AP для редких категорий.

\ В итоге, наши основные вклады следующие:

\ • Мы объясняем роль генеративных данных с точки зрения расхождения распределений. Мы обнаружили, что генеративные данные

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно