DiverGen menyajikan metode berbasis keragaman dan terukur untuk augmentasi data generatif, seperti segmentasi. DiverGen meneliti pengaruh menghasilkan sampel melalui perspektif perbedaan distribusi, berbeda dengan karya-karya sebelumnya yang mendekatinya sebagai suplemen langsung untuk data yang jarang. Ini menunjukkan bagaimana data sintetis yang bervariasi mengurangi overfitting dan memperluas ruang data yang dapat dipelajari.DiverGen menyajikan metode berbasis keragaman dan terukur untuk augmentasi data generatif, seperti segmentasi. DiverGen meneliti pengaruh menghasilkan sampel melalui perspektif perbedaan distribusi, berbeda dengan karya-karya sebelumnya yang mendekatinya sebagai suplemen langsung untuk data yang jarang. Ini menunjukkan bagaimana data sintetis yang bervariasi mengurangi overfitting dan memperluas ruang data yang dapat dipelajari.

DiverGen Membuat Pelatihan Segmentasi Instance Skala Besar Lebih Efektif

2025/11/12 00:05

:::info Penulis:

(1) Chengxiang Fan, dengan kontribusi yang sama dari Universitas Zhejiang, China;

(2) Muzhi Zhu, dengan kontribusi yang sama dari Universitas Zhejiang, China;

(3) Hao Chen, Universitas Zhejiang, China ([email protected]);

(4) Yang Liu, Universitas Zhejiang, China;

(5) Weijia Wu, Universitas Zhejiang, China;

(6) Huaqi Zhang, vivo Mobile Communication Co..

(7) Chunhua Shen, Universitas Zhejiang, China ([email protected]).

:::

Abstrak dan 1 Pendahuluan

  1. Penelitian Terkait

  2. DiverGen yang Kami Usulkan

    3.1. Analisis Distribusi Data

    3.2. Peningkatan Keberagaman Data Generatif

    3.3. Pipeline Generatif

  3. Eksperimen

    4.1. Pengaturan

    4.2. Hasil Utama

    4.3. Studi Ablasi

  4. Kesimpulan, Ucapan Terima Kasih, dan Referensi

\ Lampiran

A. Detail Implementasi

B. Visualisasi

Abstrak

Segmentasi instans membutuhkan banyak data, dan seiring dengan peningkatan kapasitas model, skala data menjadi penting untuk meningkatkan akurasi. Sebagian besar dataset segmentasi instans saat ini memerlukan anotasi manual yang mahal, membatasi skala data mereka. Model yang dilatih pada data tersebut cenderung mengalami overfitting pada set pelatihan, terutama untuk kategori yang jarang. Meskipun penelitian terbaru telah mendalami pemanfaatan model generatif untuk membuat dataset sintetis untuk augmentasi data, pendekatan ini tidak secara efisien memanfaatkan potensi penuh dari model generatif.

\ Untuk mengatasi masalah ini, kami memperkenalkan strategi yang lebih efisien untuk membangun dataset generatif untuk augmentasi data, yang disebut DiverGen. Pertama, kami memberikan penjelasan tentang peran data generatif dari perspektif perbedaan distribusi. Kami menyelidiki dampak data yang berbeda pada distribusi yang dipelajari oleh model. Kami berpendapat bahwa data generatif dapat memperluas distribusi data yang dapat dipelajari model, sehingga mengurangi overfitting. Selain itu, kami menemukan bahwa keberagaman data generatif sangat penting untuk meningkatkan kinerja model dan meningkatkannya melalui berbagai strategi, termasuk keberagaman kategori, keberagaman prompt, dan keberagaman model generatif. Dengan strategi ini, kami dapat menskalakan data hingga jutaan sambil mempertahankan tren peningkatan kinerja model. Pada dataset LVIS, DiverGen secara signifikan mengungguli model kuat X-Paste, mencapai +1,1 box AP dan +1,1 mask AP di semua kategori, dan +1,9 box AP dan +2,5 mask AP untuk kategori yang jarang. Kode kami tersedia di https://github.com/aim-uofa/DiverGen.

1. Pendahuluan

Segmentasi instans [2, 4, 9] adalah salah satu tugas yang menantang dalam visi komputer, yang memerlukan prediksi mask dan kategori untuk instans dalam gambar, yang berfungsi sebagai dasar untuk berbagai aplikasi visual. Seiring dengan peningkatan kemampuan belajar model, permintaan untuk data pelatihan meningkat. Namun, dataset saat ini untuk segmentasi instans sangat bergantung pada anotasi manual, yang memakan waktu dan mahal, dan skala dataset tidak dapat memenuhi kebutuhan pelatihan model. Meskipun munculnya dataset beranotasi otomatis SA-1B [12] baru-baru ini, dataset tersebut tidak memiliki anotasi kategori, gagal memenuhi persyaratan segmentasi instans. Sementara itu, pengembangan berkelanjutan dari model generatif telah sangat meningkatkan kontrol dan realisme sampel yang dihasilkan. Misalnya, model difusi text2image terbaru [22, 24] dapat menghasilkan gambar berkualitas tinggi yang sesuai dengan prompt input. Oleh karena itu, metode saat ini [27, 28, 34] menggunakan model generatif untuk augmentasi data dengan menghasilkan dataset untuk melengkapi pelatihan model pada dataset nyata dan meningkatkan kinerja model. Meskipun metode saat ini telah mengusulkan berbagai strategi untuk memungkinkan data generatif meningkatkan kinerja model, masih ada beberapa keterbatasan: 1) Metode yang ada belum sepenuhnya memanfaatkan potensi model generatif. Pertama, beberapa metode [34] tidak hanya menggunakan data generatif tetapi juga perlu mengambil gambar dari internet, yang sangat menantang untuk mendapatkan data skala besar. Sementara itu, konten data yang diambil dari internet tidak terkontrol dan memerlukan pemeriksaan tambahan. Kedua, metode yang ada tidak sepenuhnya menggunakan kontrol dari model generatif. Metode saat ini sering mengadopsi template yang dirancang secara manual untuk membangun prompt, membatasi output potensial dari model generatif. 2) Metode yang ada [27, 28] sering menjelaskan peran data generatif dari perspektif ketidakseimbangan kelas atau kelangkaan data, tanpa mempertimbangkan perbedaan antara data dunia nyata dan data generatif. Selain itu, metode-metode ini biasanya menunjukkan peningkatan kinerja model hanya dalam skenario dengan jumlah sampel nyata yang terbatas, dan efektivitas data generatif pada dataset nyata skala besar yang ada, seperti LVIS [8], tidak diselidiki secara menyeluruh.

\ Dalam makalah ini, kami pertama-tama mengeksplorasi peran data generatif dari perspektif perbedaan distribusi, mengatasi dua pertanyaan utama: 1) Mengapa augmentasi data generatif meningkatkan kinerja model? 2) Jenis data generatif apa yang bermanfaat untuk meningkatkan kinerja model? Pertama, kami menemukan bahwa ada perbedaan antara distribusi yang dipelajari model dari data pelatihan nyata yang terbatas dan distribusi data dunia nyata. Kami memvisualisasikan data dan menemukan bahwa dibandingkan dengan data dunia nyata, data generatif dapat memperluas distribusi data yang dapat dipelajari model. Selanjutnya, kami menemukan bahwa peran menambahkan data generatif adalah untuk mengurangi bias data pelatihan nyata, secara efektif mengurangi overfitting data pelatihan. Kedua, kami menemukan bahwa juga ada perbedaan antara distribusi data generatif dan distribusi data dunia nyata. Jika perbedaan ini tidak ditangani dengan baik, potensi penuh dari model generatif tidak dapat dimanfaatkan. Dengan melakukan beberapa eksperimen, kami menemukan bahwa menggunakan data generatif yang beragam memungkinkan model untuk lebih baik beradaptasi dengan perbedaan ini, meningkatkan kinerja model.

\ Berdasarkan analisis di atas, kami mengusulkan strategi efisien untuk meningkatkan keberagaman data, yaitu, Peningkatan Keberagaman Data Generatif. Kami merancang berbagai strategi peningkatan keberagaman untuk meningkatkan keberagaman data dari perspektif keberagaman kategori, keberagaman prompt, dan keberagaman model generatif. Untuk keberagaman kategori, kami mengamati bahwa model yang dilatih dengan data generatif yang mencakup semua kategori beradaptasi lebih baik terhadap perbedaan distribusi daripada model yang dilatih dengan kategori parsial. Oleh karena itu, kami memperkenalkan tidak hanya kategori dari LVIS [8] tetapi juga kategori tambahan dari ImageNet-1K [23] untuk meningkatkan keberagaman kategori dalam generasi data, sehingga memperkuat kemampuan adaptasi model terhadap perbedaan distribusi. Untuk keberagaman prompt, kami menemukan bahwa seiring dengan peningkatan skala dataset generatif, prompt yang dirancang secara manual tidak dapat meningkat ke tingkat yang sesuai, membatasi keberagaman gambar output dari model generatif. Dengan demikian, kami merancang serangkaian strategi generasi prompt yang beragam untuk menggunakan model bahasa besar, seperti ChatGPT, untuk generasi prompt, yang mengharuskan model bahasa besar untuk menghasilkan prompt yang maksimal beragam di bawah batasan. Dengan menggabungkan prompt yang dirancang secara manual dan prompt yang dirancang ChatGPT, kami secara efektif memperkaya keberagaman prompt dan lebih meningkatkan keberagaman data generatif. Untuk keberagaman model generatif, kami menemukan bahwa data dari model generatif yang berbeda juga menunjukkan perbedaan distribusi. Mengekspos model ke data dari model generatif yang berbeda selama pelatihan dapat meningkatkan kemampuan adaptasi terhadap distribusi yang berbeda. Oleh karena itu, kami menggunakan Stable Diffusion [22] dan DeepFloyd-IF [24] untuk menghasilkan gambar untuk semua kategori secara terpisah dan mencampur dua jenis data selama pelatihan untuk meningkatkan keberagaman data.

\ Pada saat yang sama, kami mengoptimalkan alur kerja generasi data dan mengusulkan pipeline generatif empat tahap yang terdiri dari generasi instans, anotasi instans, filtrasi instans, dan augmentasi instans. Pada tahap generasi instans, kami menggunakan Peningkatan Keberagaman Data Generatif yang kami usulkan untuk meningkatkan keberagaman data, menghasilkan data mentah yang beragam. Pada tahap anotasi instans, kami memperkenalkan strategi anotasi yang disebut SAM-background. Strategi ini mendapatkan anotasi berkualitas tinggi dengan menggunakan titik latar belakang sebagai prompt input untuk SAM [12], mendapatkan anotasi data mentah. Pada tahap filtrasi instans, kami memperkenalkan metrik yang disebut CLIP inter-similarity. Memanfaatkan encoder gambar CLIP [21], kami mengekstrak embedding dari data generatif dan nyata, dan kemudian menghitung kesamaannya. Kesamaan yang lebih rendah menunjukkan kualitas data yang lebih rendah. Setelah filtrasi, kami mendapatkan dataset generatif akhir. Pada tahap augmentasi instans, kami menggunakan strategi paste instans [34] untuk meningkatkan efisiensi pembelajaran model pada data generatif.

\ Eksperimen menunjukkan bahwa strategi keberagaman data yang kami rancang dapat secara efektif meningkatkan kinerja model dan mempertahankan tren peningkatan kinerja seiring dengan peningkatan skala data ke level jutaan, yang memungkinkan data generatif skala besar untuk augmentasi data. Pada dataset LVIS, DiverGen secara signifikan mengungguli model kuat X-Paste [34], mencapai +1,1 box AP [8] dan +1,1 mask AP di semua kategori, dan +1,9 box AP dan +2,5 mask AP untuk kategori yang jarang.

\ Secara ringkas, kontribusi utama kami adalah sebagai berikut:

\ • Kami menjelaskan peran data generatif dari perspektif perbedaan distribusi. Kami menemukan bahwa data generatif dapat memperluas distribusi data yang dapat dipelajari model, mengurangi overfitting set pelatihan dan keberagaman data generatif sangat penting untuk meningkatkan kinerja model.

\ • Kami mengusulkan strategi Peningkatan Keberagaman Data Generatif untuk meningkatkan keberagaman data dari aspek keberagaman kategori, keberagaman prompt, dan keberagaman model generatif. Dengan meningkatkan keberagaman data, kami dapat menskalakan data hingga jutaan sambil mempertahankan tren peningkatan kinerja model.

\ • Kami mengoptimalkan pipeline generasi data. Kami mengusulkan strategi anotasi SAM-background untuk mendapatkan anotasi berkualitas lebih tinggi. Kami juga memperkenalkan metrik filtrasi yang disebut CLIP inter-similarity untuk memfilter data dan lebih meningkatkan kualitas dataset generatif.

2. Penelitian Terkait

Segmentasi instans. Segmentasi instans adalah tugas penting dalam bidang visi komputer dan telah dipelajari secara ekstensif. Tidak seperti segmentasi semantik, segmentasi instans tidak hanya mengklasifikasikan piksel pada tingkat piksel tetapi juga membedakan instans yang berbeda dari kategori yang sama. Sebelumnya, fokus penelitian segmentasi instans terutama pada desain struktur model. Mask-RCNN [9] menyatukan tugas deteksi objek dan segmentasi instans. Selanjutnya, Mask2Former [4] lebih menyatukan tugas segmentasi semantik dan segmentasi instans dengan memanfaatkan struktur DETR [2].

\ Ortogonal dengan studi ini yang berfokus pada arsitektur model, pekerjaan kami terutama menyelidiki bagaimana memanfaatkan data yang dihasilkan dengan lebih baik untuk tugas ini. Kami fokus pada dataset long-tail yang menantang LVIS [8] karena hanya kategori long-tailed yang menghadapi masalah data nyata yang

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.

Anda Mungkin Juga Menyukai