DiverGen présente une méthode évolutive axée sur la diversité pour l'augmentation générative des données, comme la segmentation. DiverGen examine l'influence de la génération d'échantillons via la perspective de la divergence de distribution, contrairement aux travaux précédents qui les abordent comme de simples suppléments pour les données éparses. Cela démontre comment des données synthétiques variées réduisent le surapprentissage et élargissent l'espace de données apprenable.DiverGen présente une méthode évolutive axée sur la diversité pour l'augmentation générative des données, comme la segmentation. DiverGen examine l'influence de la génération d'échantillons via la perspective de la divergence de distribution, contrairement aux travaux précédents qui les abordent comme de simples suppléments pour les données éparses. Cela démontre comment des données synthétiques variées réduisent le surapprentissage et élargissent l'espace de données apprenable.

DiverGen rend la formation à la segmentation d'instance à grande échelle plus efficace

2025/11/12 00:05

:::info Auteurs:

(1) Chengxiang Fan, avec une contribution égale de l'Université de Zhejiang, Chine;

(2) Muzhi Zhu, avec une contribution égale de l'Université de Zhejiang, Chine;

(3) Hao Chen, Université de Zhejiang, Chine ([email protected]);

(4) Yang Liu, Université de Zhejiang, Chine;

(5) Weijia Wu, Université de Zhejiang, Chine;

(6) Huaqi Zhang, vivo Mobile Communication Co..

(7) Chunhua Shen, Université de Zhejiang, Chine ([email protected]).

:::

Abstrait et 1 Introduction

  1. Travaux connexes

  2. Notre proposition DiverGen

    3.1. Analyse de la distribution des données

    3.2. Amélioration de la diversité des données génératives

    3.3. Pipeline génératif

  3. Expériences

    4.1. Paramètres

    4.2. Résultats principaux

    4.3. Études d'ablation

  4. Conclusions, remerciements et références

\ Annexe

A. Détails d'implémentation

B. Visualisation

Abstrait

La segmentation d'instances nécessite beaucoup de données, et à mesure que la capacité des modèles augmente, l'échelle des données devient cruciale pour améliorer la précision. La plupart des ensembles de données de segmentation d'instances actuels nécessitent une annotation manuelle coûteuse, limitant leur échelle. Les modèles entraînés sur ces données sont sujets au surapprentissage sur l'ensemble d'entraînement, en particulier pour les catégories rares. Bien que des travaux récents se soient penchés sur l'exploitation de modèles génératifs pour créer des ensembles de données synthétiques pour l'augmentation de données, ces approches n'exploitent pas efficacement tout le potentiel des modèles génératifs.

\ Pour résoudre ces problèmes, nous introduisons une stratégie plus efficace pour construire des ensembles de données génératifs pour l'augmentation de données, appelée DiverGen. Tout d'abord, nous fournissons une explication du rôle des données génératives du point de vue de la divergence de distribution. Nous étudions l'impact de différentes données sur la distribution apprise par le modèle. Nous soutenons que les données génératives peuvent élargir la distribution de données que le modèle peut apprendre, atténuant ainsi le surapprentissage. De plus, nous constatons que la diversité des données génératives est cruciale pour améliorer les performances du modèle et nous l'améliorons grâce à diverses stratégies, notamment la diversité des catégories, la diversité des prompts et la diversité des modèles génératifs. Avec ces stratégies, nous pouvons faire évoluer les données à des millions tout en maintenant la tendance d'amélioration des performances du modèle. Sur l'ensemble de données LVIS, DiverGen surpasse significativement le modèle performant X-Paste, atteignant +1,1 box AP et +1,1 mask AP sur toutes les catégories, et +1,9 box AP et +2,5 mask AP pour les catégories rares. Notre code est disponible sur https://github.com/aim-uofa/DiverGen.

1. Introduction

La segmentation d'instances [2, 4, 9] est l'une des tâches difficiles en vision par ordinateur, nécessitant la prédiction de masques et de catégories pour les instances dans une image, ce qui sert de base à de nombreuses applications visuelles. À mesure que les capacités d'apprentissage des modèles s'améliorent, la demande de données d'entraînement augmente. Cependant, les ensembles de données actuels pour la segmentation d'instances reposent fortement sur l'annotation manuelle, qui est chronophage et coûteuse, et l'échelle de l'ensemble de données ne peut pas répondre aux besoins d'entraînement des modèles. Malgré l'émergence récente de l'ensemble de données annoté automatiquement SA-1B [12], il manque d'annotations de catégories, ne répondant pas aux exigences de la segmentation d'instances. Parallèlement, le développement continu du modèle génératif a largement amélioré la contrôlabilité et le réalisme des échantillons générés. Par exemple, le récent modèle de diffusion text2image [22, 24] peut générer des images de haute qualité correspondant aux prompts d'entrée. Par conséquent, les méthodes actuelles [27, 28, 34] utilisent des modèles génératifs pour l'augmentation de données en générant des ensembles de données pour compléter l'entraînement des modèles sur des ensembles de données réels et améliorer les performances des modèles. Bien que les méthodes actuelles aient proposé diverses stratégies pour permettre aux données génératives d'améliorer les performances des modèles, il existe encore certaines limitations : 1) Les méthodes existantes n'ont pas pleinement exploité le potentiel des modèles génératifs. Premièrement, certaines méthodes [34] utilisent non seulement des données génératives mais ont également besoin de récupérer des images d'Internet, ce qui est significativement difficile pour obtenir des données à grande échelle. Parallèlement, le contenu des données récupérées d'Internet est incontrôlable et nécessite une vérification supplémentaire. Deuxièmement, les méthodes existantes n'utilisent pas pleinement la contrôlabilité des modèles génératifs. Les méthodes actuelles adoptent souvent des modèles conçus manuellement pour construire des prompts, limitant la sortie potentielle des modèles génératifs. 2) Les méthodes existantes [27, 28] expliquent souvent le rôle des données génératives du point de vue du déséquilibre de classe ou de la rareté des données, sans considérer la divergence entre les données du monde réel et les données génératives. De plus, ces méthodes montrent généralement une amélioration des performances du modèle uniquement dans des scénarios avec un nombre limité d'échantillons réels, et l'efficacité des données génératives sur les ensembles de données réels à grande échelle existants, comme LVIS [8], n'est pas complètement étudiée.

\ Dans cet article, nous explorons d'abord le rôle des données génératives du point de vue de la divergence de distribution, en abordant deux questions principales : 1) Pourquoi l'augmentation des données génératives améliore-t-elle les performances du modèle ? 2) Quels types de données génératives sont bénéfiques pour améliorer les performances du modèle ? Premièrement, nous constatons qu'il existe des divergences entre la distribution apprise par le modèle des données d'entraînement réelles limitées et la distribution des données du monde réel. Nous visualisons les données et constatons que par rapport aux données du monde réel, les données génératives peuvent élargir la distribution de données que le modèle peut apprendre. De plus, nous constatons que le rôle de l'ajout de données génératives est d'atténuer le biais des données d'entraînement réelles, atténuant efficacement le surapprentissage des données d'entraînement. Deuxièmement, nous constatons qu'il existe également des divergences entre la distribution des données génératives et la distribution des données du monde réel. Si ces divergences ne sont pas traitées correctement, le plein potentiel du modèle génératif ne peut pas être utilisé. En menant plusieurs expériences, nous constatons que l'utilisation de données génératives diverses permet aux modèles de mieux s'adapter à ces divergences, améliorant les performances du modèle.

\ Sur la base de l'analyse ci-dessus, nous proposons une stratégie efficace pour améliorer la diversité des données, à savoir l'amélioration de la diversité des données génératives. Nous concevons diverses stratégies d'amélioration de la diversité pour augmenter la diversité des données du point de vue de la diversité des catégories, de la diversité des prompts et de la diversité des modèles génératifs. Pour la diversité des catégories, nous observons que les modèles entraînés avec des données génératives couvrant toutes les catégories s'adaptent mieux à la divergence de distribution que les modèles entraînés avec des catégories partielles. Par conséquent, nous introduisons non seulement des catégories de LVIS [8] mais aussi des catégories supplémentaires d'ImageNet-1K [23] pour améliorer la diversité des catégories dans la génération de données, renforçant ainsi l'adaptabilité du modèle à la divergence de distribution. Pour la diversité des prompts, nous constatons qu'à mesure que l'échelle de l'ensemble de données génératif augmente, les prompts conçus manuellement ne peuvent pas évoluer au niveau correspondant, limitant la diversité des images de sortie du modèle génératif. Ainsi, nous concevons un ensemble de stratégies de génération de prompts diversifiés pour utiliser de grands modèles de langage, comme ChatGPT, pour la génération de prompts, exigeant que les grands modèles de langage produisent des prompts maximalement diversifiés sous contraintes. En combinant des prompts conçus manuellement et des prompts conçus par ChatGPT, nous enrichissons efficacement la diversité des prompts et améliorons davantage la diversité des données génératives. Pour la diversité des modèles génératifs, nous constatons que les données provenant de différents modèles génératifs présentent également des divergences de distribution. Exposer les modèles à des données provenant de différents modèles génératifs pendant l'entraînement peut améliorer l'adaptabilité à différentes distributions. Par conséquent, nous utilisons Stable Diffusion [22] et DeepFloyd-IF [24] pour générer des images pour toutes les catégories séparément et mélangeons les deux types de données pendant l'entraînement pour augmenter la diversité des données.

\ En même temps, nous optimisons le flux de travail de génération de données et proposons un pipeline génératif en quatre étapes comprenant la génération d'instances, l'annotation d'instances, la filtration d'instances et l'augmentation d'instances. Dans l'étape de génération d'instances, nous employons notre proposition d'amélioration de la diversité des données génératives pour améliorer la diversité des données, produisant des données brutes diverses. Dans l'étape d'annotation d'instances, nous introduisons une stratégie d'annotation appelée SAM-background. Cette stratégie obtient des annotations de haute qualité en utilisant des points d'arrière-plan comme prompts d'entrée pour SAM [12], obtenant les annotations des données brutes. Dans l'étape de filtration d'instances, nous introduisons une métrique appelée inter-similarité CLIP. En utilisant l'encodeur d'image CLIP [21], nous extrayons des embeddings des données génératives et réelles, puis calculons leur similarité. Une similarité plus faible indique une qualité de données inférieure. Après filtration, nous obtenons l'ensemble de données génératif final. Dans l'étape d'augmentation d'instances, nous utilisons la stratégie de collage d'instances [34] pour augmenter l'efficacité d'apprentissage du modèle sur les données génératives.

\ Les expériences démontrent que nos stratégies de diversité des données conçues peuvent efficacement améliorer les performances du modèle et maintenir la tendance des gains de performance à mesure que l'échelle des données augmente au niveau du million, ce qui permet des données génératives à grande échelle pour l'augmentation de données. Sur l'ensemble de données LVIS, DiverGen surpasse significativement le modèle performant X-Paste [34], atteignant +1,1 box AP [8] et +1,1 mask AP sur toutes les catégories, et +1,9 box AP et +2,5 mask AP pour les catégories rares.

\ En résumé, nos principales contributions sont les suivantes :

\ • Nous expliquons le rôle des données génératives du point de vue de la divergence de distribution. Nous constatons que les données génératives peuvent élargir la distribution de données que le modèle peut apprendre, atténuant le surapprentissage de l'ensemble d'entraînement et la diversité des données génératives est cruciale pour améliorer les performances du modèle.

\ • Nous proposons la stratégie d'amélioration de la diversité des données génératives pour augmenter la diversité des données sous les aspects de la diversité des catégories, de la diversité des prompts et de la diversité des modèles génératifs. En améliorant la diversité des données, nous pouvons faire évoluer les données à des millions tout en maintenant la tendance d'amélioration des performances du modèle.

\ • Nous optimisons le pipeline de génération de données. Nous proposons une stratégie d'annotation SAM-background pour obtenir des annotations de meilleure qualité. Nous introduisons également une métrique de filtration appelée inter-similarité CLIP pour filtrer les données et améliorer davantage la qualité de l'ensemble de données génératif.

2. Travaux connexes

Segmentation d'instances. La segmentation d'instances est une tâche importante dans le domaine de la vision par ordinateur et a été largement étudiée. Contrairement à la segmentation sémantique, la segmentation d'instances ne classe pas seulement les pixels au niveau du pixel mais distingue également différentes instances de la même catégorie. Auparavant, l'accent de la recherche en segmentation d'instances était principalement mis sur la conception de structures de modèles. Mask-RCNN [9] unifie les tâches de détection d'objets et de segmentation d'instances. Par la suite, Mask2Former [4] a davantage unifié les tâches de segmentation sémantique et de segmentation d'instances en exploitant la structure de DETR [2].

\ Orthogonalement à ces études axées sur l'architecture du modèle, notre travail étudie principalement comment mieux utiliser les données

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.