Postingan Character.ai Mengungkap Teknik Efisien untuk Pretraining Skala Besar muncul di BitcoinEthereumNews.com. Tony Kim 23 Des 2025 21:56 Character.aiPostingan Character.ai Mengungkap Teknik Efisien untuk Pretraining Skala Besar muncul di BitcoinEthereumNews.com. Tony Kim 23 Des 2025 21:56 Character.ai

Character.ai Mengungkapkan Teknik Efisien untuk Pretraining Skala Besar



Tony Kim
23 Des 2025 21:56

Character.ai mengungkapkan metode inovatif untuk mengoptimalkan pretraining skala besar, dengan fokus pada teknik seperti Squinch, dynamic clamping, dan Gumbel Softmax, untuk meningkatkan efisiensi dalam pelatihan model AI.

Character.ai, pemain terkemuka di bidang AI, baru-baru ini membagikan wawasan tentang upaya awalnya untuk mengoptimalkan pelatihan transformer skala besar. Perusahaan, yang kini telah mengalihkan fokusnya ke fondasi model open-source, awalnya mengeksplorasi berbagai teknik untuk meningkatkan efisiensi dan kecepatan pelatihan, menurut Blog Character.AI.

Kompresi Gradien: Squinch

Salah satu inovasi kunci yang disorot dalam upaya Character.ai adalah algoritma kompresi gradien yang dikenal sebagai Squinch. Dikembangkan oleh co-founder Noam Shazeer, teknik kompresi 6-bit ini dirancang untuk secara signifikan mengurangi bandwidth komunikasi selama pelatihan terdistribusi sambil mempertahankan akurasi model. Algoritma ini secara efektif mengompresi gradien menjadi 6 bit per elemen, mengoptimalkan penggunaan bandwidth cluster pelatihan.

Regularisasi Presisi: Attention Z-Reg

Character.ai juga mengembangkan Attention Z-Reg, metode regularisasi yang diterapkan pada attention logits untuk memastikan stabilitas numerik. Teknik ini membantu mempertahankan presisi representasi bfloat16, yang sangat penting untuk mengoptimalkan pelatihan model besar.

Stabilitas Kuantisasi: Dynamic Clamping

Dynamic Clamping adalah teknik lain yang digunakan untuk meningkatkan stabilitas kuantisasi. Ini mencegah nilai aktivasi kecil runtuh menjadi nol dengan menghitung rentang clamping secara dinamis berdasarkan root mean square dari bobot input. Metode ini meningkatkan stabilitas pelatihan dengan mengurangi kesalahan kuantisasi.

API Attention Efisien: Visibility Mask

Pengenalan Visibility Mask, alat untuk merepresentasikan hubungan antar-token selama pelatihan dan inferensi, telah meningkatkan efisiensi sistem pelatihan. API ini membantu mengelola rentang attention dalam batch, mendukung hubungan dokumen terstruktur pohon dan attention bidirectional.

Optimisasi Distilasi: Gumbel Softmax

Dalam ranah distilasi model, Character.ai telah memanfaatkan teknik Gumbel Softmax untuk mengurangi biaya penyimpanan dan bandwidth sambil mempertahankan fidelitas model guru. Pendekatan ini melibatkan pengambilan sampel subset dari output model guru, mempertahankan nilai target soft untuk pelatihan model siswa yang lebih efisien.

Upaya Character.ai dalam mengoptimalkan pretraining telah membuka jalan bagi pelatihan model AI yang lebih efisien, bahkan ketika perusahaan beralih ke reinforcement learning pasca-pelatihan untuk model open-source. Teknik-teknik ini, termasuk Squinch dan Gumbel Softmax, menggarisbawahi komitmen perusahaan untuk memajukan efisiensi dan skalabilitas AI.

Sumber gambar: Shutterstock

Sumber: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Peluang Pasar
Logo Sleepless AI
Harga Sleepless AI(AI)
$0.0382
$0.0382$0.0382
+2.52%
USD
Grafik Harga Live Sleepless AI (AI)
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.