DiverGen präsentiert eine diversitätsgetriebene, skalierbare Methode für generative Datenerweiterung, wie beispielsweise Segmentierung. DiverGen untersucht den Einfluss der Generierung von Stichproben aus der Perspektive der Verteilungsdiskrepanz, im Gegensatz zu früheren Arbeiten, die sie als unkomplizierte Ergänzungen für spärliche Daten betrachten. Dies zeigt, wie vielfältige synthetische Daten Überanpassung reduzieren und den erlernbaren Datenraum erweitern.DiverGen präsentiert eine diversitätsgetriebene, skalierbare Methode für generative Datenerweiterung, wie beispielsweise Segmentierung. DiverGen untersucht den Einfluss der Generierung von Stichproben aus der Perspektive der Verteilungsdiskrepanz, im Gegensatz zu früheren Arbeiten, die sie als unkomplizierte Ergänzungen für spärliche Daten betrachten. Dies zeigt, wie vielfältige synthetische Daten Überanpassung reduzieren und den erlernbaren Datenraum erweitern.

DiverGen macht das Training der Instanzsegmentierung im großen Maßstab effektiver

2025/11/12 00:05

:::info Autoren:

(1) Chengxiang Fan, mit gleichem Beitrag von der Zhejiang Universität, China;

(2) Muzhi Zhu, mit gleichem Beitrag von der Zhejiang Universität, China;

(3) Hao Chen, Zhejiang Universität, China ([email protected]);

(4) Yang Liu, Zhejiang Universität, China;

(5) Weijia Wu, Zhejiang Universität, China;

(6) Huaqi Zhang, vivo Mobile Communication Co..

(7) Chunhua Shen, Zhejiang Universität, China ([email protected]).

:::

Abstrakt und 1 Einleitung

  1. Verwandte Arbeiten

  2. Unser vorgeschlagenes DiverGen

    3.1. Analyse der Datenverteilung

    3.2. Generative Datendiversitätsverbesserung

    3.3. Generativer Pipeline

  3. Experimente

    4.1. Einstellungen

    4.2. Hauptergebnisse

    4.3. Ablationsstudien

  4. Schlussfolgerungen, Danksagungen und Referenzen

\ Anhang

A. Implementierungsdetails

B. Visualisierung

Abstrakt

Die Instanzsegmentierung ist datenintensiv, und mit zunehmender Modellkapazität wird der Datenumfang entscheidend für die Verbesserung der Genauigkeit. Die meisten Instanzsegmentierungsdatensätze erfordern heute kostspielige manuelle Annotation, was ihren Datenumfang begrenzt. Modelle, die mit solchen Daten trainiert werden, neigen zum Overfitting auf dem Trainingssatz, insbesondere für seltene Kategorien. Während sich neuere Arbeiten mit der Nutzung generativer Modelle zur Erstellung synthetischer Datensätze für die Datenerweiterung befasst haben, nutzen diese Ansätze das volle Potenzial generativer Modelle nicht effizient aus.

\ Um diese Probleme zu lösen, stellen wir eine effizientere Strategie zur Konstruktion generativer Datensätze für die Datenerweiterung vor, genannt DiverGen. Zunächst erklären wir die Rolle generativer Daten aus der Perspektive der Verteilungsdiskrepanz. Wir untersuchen die Auswirkungen verschiedener Daten auf die vom Modell gelernte Verteilung. Wir argumentieren, dass generative Daten die Datenverteilung, die das Modell lernen kann, erweitern können, wodurch Overfitting gemildert wird. Zusätzlich stellen wir fest, dass die Vielfalt generativer Daten entscheidend für die Verbesserung der Modellleistung ist, und verbessern sie durch verschiedene Strategien, einschließlich Kategorievielfalt, Prompt-Vielfalt und Vielfalt generativer Modelle. Mit diesen Strategien können wir die Daten auf Millionen skalieren und gleichzeitig den Trend der Modellleistungsverbesserung beibehalten. Auf dem LVIS-Datensatz übertrifft DiverGen das starke Modell X-Paste deutlich und erreicht +1,1 Box AP und +1,1 Masken-AP über alle Kategorien hinweg sowie +1,9 Box AP und +2,5 Masken-AP für seltene Kategorien. Unser Code ist verfügbar unter https://github.com/aim-uofa/DiverGen.

1. Einleitung

Instanzsegmentierung [2, 4, 9] ist eine der anspruchsvollen Aufgaben im Bereich Computer Vision, die die Vorhersage von Masken und Kategorien für Instanzen in einem Bild erfordert und als Grundlage für zahlreiche visuelle Anwendungen dient. Mit der Verbesserung der Lernfähigkeiten von Modellen steigt der Bedarf an Trainingsdaten. Aktuelle Datensätze für die Instanzsegmentierung sind jedoch stark auf manuelle Annotation angewiesen, was zeitaufwändig und kostspielig ist, und der Datensatzumfang kann den Trainingsbedarf der Modelle nicht decken. Trotz des kürzlichen Aufkommens des automatisch annotierten Datensatzes SA-1B [12] fehlen ihm Kategorieannotationen, wodurch er die Anforderungen der Instanzsegmentierung nicht erfüllt. Gleichzeitig hat die fortlaufende Entwicklung des generativen Modells die Kontrollierbarkeit und Realitätsnähe generierter Proben erheblich verbessert. Zum Beispiel kann das neuere Text2Image-Diffusionsmodell [22, 24] hochwertige Bilder erzeugen, die den Eingabeaufforderungen entsprechen. Daher verwenden aktuelle Methoden [27, 28, 34] generative Modelle zur Datenerweiterung, indem sie Datensätze generieren, um das Training von Modellen auf realen Datensätzen zu ergänzen und die Modellleistung zu verbessern. Obwohl aktuelle Methoden verschiedene Strategien vorgeschlagen haben, um generative Daten zur Leistungssteigerung von Modellen zu nutzen, gibt es immer noch einige Einschränkungen: 1) Bestehende Methoden haben das Potenzial generativer Modelle nicht vollständig ausgeschöpft. Erstens verwenden einige Methoden [34] nicht nur generative Daten, sondern müssen auch Bilder aus dem Internet crawlen, was die Beschaffung großer Datenmengen erheblich erschwert. Gleichzeitig ist der Inhalt der aus dem Internet gecrawlten Daten unkontrollierbar und erfordert zusätzliche Überprüfung. Zweitens nutzen bestehende Methoden die Kontrollierbarkeit generativer Modelle nicht vollständig aus. Aktuelle Methoden verwenden oft manuell entworfene Vorlagen zur Konstruktion von Prompts, was die potenzielle Ausgabe generativer Modelle einschränkt. 2) Bestehende Methoden [27, 28] erklären die Rolle generativer Daten oft aus der Perspektive der Klassenungleichgewichte oder Datenknappheit, ohne die Diskrepanz zwischen realen Daten und generativen Daten zu berücksichtigen. Darüber hinaus zeigen diese Methoden typischerweise nur in Szenarien mit einer begrenzten Anzahl realer Proben verbesserte Modellleistungen, und die Wirksamkeit generativer Daten auf bestehenden großen realen Datensätzen wie LVIS [8] wird nicht gründlich untersucht.

\ In dieser Arbeit untersuchen wir zunächst die Rolle generativer Daten aus der Perspektive der Verteilungsdiskrepanz und befassen uns mit zwei Hauptfragen: 1) Warum verbessert die generative Datenerweiterung die Modellleistung? 2) Welche Arten generativer Daten sind für die Verbesserung der Modellleistung vorteilhaft? Erstens stellen wir fest, dass es Diskrepanzen zwischen der vom Modell gelernten Verteilung der begrenzten realen Trainingsdaten und der Verteilung realer Daten gibt. Wir visualisieren die Daten und stellen fest, dass im Vergleich zu realen Daten generative Daten die Datenverteilung erweitern können, die das Modell lernen kann. Darüber hinaus stellen wir fest, dass die Rolle des Hinzufügens generativer Daten darin besteht, die Verzerrung der realen Trainingsdaten zu mildern und so das Overfitting der Trainingsdaten effektiv zu reduzieren. Zweitens stellen wir fest, dass es auch Diskrepanzen zwischen der Verteilung der generativen Daten und der Verteilung realer Daten gibt. Wenn diese Diskrepanzen nicht richtig behandelt werden, kann das volle Potenzial des generativen Modells nicht genutzt werden. Durch mehrere Experimente stellen wir fest, dass die Verwendung vielfältiger generativer Daten es Modellen ermöglicht, sich besser an diese Diskrepanzen anzupassen und die Modellleistung zu verbessern.

\ Basierend auf der obigen Analyse schlagen wir eine effiziente Strategie zur Verbesserung der Datenvielfalt vor, nämlich Generative Datendiversitätsverbesserung. Wir entwerfen verschiedene Strategien zur Diversitätsverbesserung, um die Datenvielfalt aus den Perspektiven der Kategorievielfalt, Prompt-Vielfalt und Vielfalt generativer Modelle zu erhöhen. Für die Kategorievielfalt beobachten wir, dass Modelle, die mit generativen Daten trainiert werden, die alle Kategorien abdecken, sich besser an Verteilungsdiskrepanzen anpassen als Modelle, die mit teilweisen Kategorien trainiert werden. Daher führen wir nicht nur Kategorien aus LVIS [8], sondern auch zusätzliche Kategorien aus ImageNet-1K [23] ein, um die Kategorievielfalt bei der Datengenerierung zu verbessern und damit die Anpassungsfähigkeit des Modells an Verteilungsdiskrepanzen zu stärken. Für die Prompt-Vielfalt stellen wir fest, dass mit zunehmender Skalierung des generativen Datensatzes manuell entworfene Prompts nicht auf das entsprechende Niveau skaliert werden können, was die Vielfalt der Ausgabebilder aus dem generativen Modell einschränkt. Daher entwerfen wir eine Reihe von Strategien zur Erzeugung vielfältiger Prompts, um große Sprachmodelle wie ChatGPT für die Prompt-Generierung zu nutzen, wobei wir von den großen Sprachmodellen verlangen, unter Einschränkungen maximal vielfältige Prompts auszugeben. Durch die Kombination von manuell entworfenen Prompts und von ChatGPT entworfenen Prompts bereichern wir effektiv die Prompt-Vielfalt und verbessern weiter die Vielfalt generativer Daten. Für die Vielfalt generativer Modelle stellen wir fest, dass Daten von verschiedenen generativen Modellen auch Verteilungsdiskrepanzen aufweisen. Die Exposition von Modellen gegenüber Daten von verschiedenen generativen Modellen während des Trainings kann die Anpassungsfähigkeit an verschiedene Verteilungen verbessern. Daher verwenden wir Stable Diffusion [22] und DeepFloyd-IF [24], um Bilder für alle Kategorien separat zu generieren, und mischen die beiden Datentypen während des Trainings, um die Datenvielfalt zu erhöhen.

\ Gleichzeitig optimieren wir den Datenerzeugungs-Workflow und schlagen eine vierstufige generative Pipeline vor, bestehend aus Instanzgenerierung, Instanzannotation, Instanzfilterung und Instanzerweiterung. In der Instanzgenerierungsphase setzen wir unsere vorgeschlagene Generative Datendiversitätsverbesserung ein, um die Datenvielfalt zu erhöhen und vielfältige Rohdaten zu erzeugen. In der Instanzannotationsphase führen wir eine Annotationsstrategie namens SAM-background ein. Diese Strategie erhält hochwertige Annotationen, indem sie Hintergrundpunkte als Eingabeaufforderungen für SAM [12] verwendet und so die Annotationen der Rohdaten erhält. In der Instanzfilterungsphase führen wir eine Metrik namens CLIP-Inter-Ähnlichkeit ein. Unter Verwendung des CLIP [21] Bildcodierers extrahieren wir Einbettungen aus generativen und realen Daten und berechnen dann ihre Ähnlichkeit. Eine geringere Ähnlichkeit deutet auf eine niedrigere Datenqualität hin. Nach der Filterung erhalten wir den endgültigen generativen Datensatz. In der Instanzerweiterungsphase verwenden wir die Instanz-Einfügestrategie [34], um die Lerneffizienz des Modells auf generativen Daten zu erhöhen.

\ Experimente zeigen, dass unsere entworfenen Datendiversitätsstrategien die Modellleistung effektiv verbessern und den Trend der Leistungssteigerung beibehalten können, während die Datenskala auf Millionenniveau ansteigt, was großskalige generative Daten für die Datenerweiterung ermöglicht. Auf dem LVIS-Datensatz übertrifft DiverGen das starke Modell X-Paste [34] deutlich und erreicht +1,1 Box AP [8] und +1,1 Masken-AP über alle Kategorien hinweg sowie +1,9 Box AP und +2,5 Masken-AP für seltene Kategorien.

\ Zusammenfassend sind unsere Hauptbeiträge wie folgt:

\ • Wir erklären die Rolle generativer Daten aus der Perspektive der Verteilungsdiskrepanz. Wir stellen fest, dass generative Daten die Datenverteilung, die das Modell lernen kann, erweitern können, wodurch Overfitting des Trainingssatzes gemildert wird, und dass die Vielfalt generativer Daten entscheidend für die Verbesserung der Modellleistung ist.

\ • Wir schlagen die Strategie der Generativen Datendiversitätsverbesserung vor, um die Datenvielfalt in Bezug auf Kategorievielfalt, Prompt-Vielfalt und Vielfalt generativer Modelle zu erhöhen. Durch die Verbesserung der Datenvielfalt können wir die Daten auf Millionen

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.