Tony Kim
23 Des 2025 21:56
Character.ai mengungkapkan metode inovatif untuk mengoptimalkan pretraining skala besar, dengan fokus pada teknik seperti Squinch, dynamic clamping, dan Gumbel Softmax, untuk meningkatkan efisiensi dalam pelatihan model AI.
Character.ai, pemain terkemuka di bidang AI, baru-baru ini membagikan wawasan tentang upaya awalnya untuk mengoptimalkan pelatihan transformer skala besar. Perusahaan, yang kini telah mengalihkan fokusnya ke fondasi model open-source, awalnya mengeksplorasi berbagai teknik untuk meningkatkan efisiensi dan kecepatan pelatihan, menurut Blog Character.AI.
Kompresi Gradien: Squinch
Salah satu inovasi kunci yang disorot dalam upaya Character.ai adalah algoritma kompresi gradien yang dikenal sebagai Squinch. Dikembangkan oleh co-founder Noam Shazeer, teknik kompresi 6-bit ini dirancang untuk secara signifikan mengurangi bandwidth komunikasi selama pelatihan terdistribusi sambil mempertahankan akurasi model. Algoritma ini secara efektif mengompresi gradien menjadi 6 bit per elemen, mengoptimalkan penggunaan bandwidth cluster pelatihan.
Regularisasi Presisi: Attention Z-Reg
Character.ai juga mengembangkan Attention Z-Reg, metode regularisasi yang diterapkan pada attention logits untuk memastikan stabilitas numerik. Teknik ini membantu mempertahankan presisi representasi bfloat16, yang sangat penting untuk mengoptimalkan pelatihan model besar.
Stabilitas Kuantisasi: Dynamic Clamping
Dynamic Clamping adalah teknik lain yang digunakan untuk meningkatkan stabilitas kuantisasi. Ini mencegah nilai aktivasi kecil runtuh menjadi nol dengan menghitung rentang clamping secara dinamis berdasarkan root mean square dari bobot input. Metode ini meningkatkan stabilitas pelatihan dengan mengurangi kesalahan kuantisasi.
API Attention Efisien: Visibility Mask
Pengenalan Visibility Mask, alat untuk merepresentasikan hubungan antar-token selama pelatihan dan inferensi, telah meningkatkan efisiensi sistem pelatihan. API ini membantu mengelola rentang attention dalam batch, mendukung hubungan dokumen terstruktur pohon dan attention bidirectional.
Optimisasi Distilasi: Gumbel Softmax
Dalam ranah distilasi model, Character.ai telah memanfaatkan teknik Gumbel Softmax untuk mengurangi biaya penyimpanan dan bandwidth sambil mempertahankan fidelitas model guru. Pendekatan ini melibatkan pengambilan sampel subset dari output model guru, mempertahankan nilai target soft untuk pelatihan model siswa yang lebih efisien.
Upaya Character.ai dalam mengoptimalkan pretraining telah membuka jalan bagi pelatihan model AI yang lebih efisien, bahkan ketika perusahaan beralih ke reinforcement learning pasca-pelatihan untuk model open-source. Teknik-teknik ini, termasuk Squinch dan Gumbel Softmax, menggarisbawahi komitmen perusahaan untuk memajukan efisiensi dan skalabilitas AI.
Sumber gambar: Shutterstock
Sumber: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


