Dengan menggabungkan keunggulan model ruang keadaan (SSMs) dengan mekanisme perhatian, SAMBA menghadirkan arsitektur neural hibrida yang memungkinkan pemodelan bahasa yang efektif dan skalabel dengan panjang konteks yang hampir tak terbatas. SAMBA melampaui model berbasis perhatian murni dan berbasis SSM dalam berbagai metrik penalaran, pemahaman, dan pengkodean ketika dilatih pada SlimPajama dengan pengaturan yang konsisten. Model ini memproses urutan hingga 256K token dengan sedikit fine-tuning, mencapai kecepatan dan kapasitas ekstrapolasi yang luar biasa.Dengan menggabungkan keunggulan model ruang keadaan (SSMs) dengan mekanisme perhatian, SAMBA menghadirkan arsitektur neural hibrida yang memungkinkan pemodelan bahasa yang efektif dan skalabel dengan panjang konteks yang hampir tak terbatas. SAMBA melampaui model berbasis perhatian murni dan berbasis SSM dalam berbagai metrik penalaran, pemahaman, dan pengkodean ketika dilatih pada SlimPajama dengan pengaturan yang konsisten. Model ini memproses urutan hingga 256K token dengan sedikit fine-tuning, mencapai kecepatan dan kapasitas ekstrapolasi yang luar biasa.

Bagaimana Model AI Hibrid Menyeimbangkan Memori dan Efisiensi

2025/10/28 17:13

Abstrak dan 1. Pendahuluan

  1. Metodologi

  2. Eksperimen dan Hasil

    3.1 Pemodelan Bahasa pada Data vQuality

    3.2 Eksplorasi pada Perhatian dan Rekurensi Linier

    3.3 Ekstrapolasi Panjang yang Efisien

    3.4 Pemahaman Konteks Panjang

  3. Analisis

  4. Kesimpulan, Ucapan Terima Kasih, dan Referensi

A. Detail Implementasi

B. Hasil Eksperimen Tambahan

C. Detail Pengukuran Entropi

D. Keterbatasan

\

A Detail Implementasi

\ Untuk lapisan GLA dalam arsitektur Sliding GLA, kami menggunakan jumlah kepala dm/384, rasio ekspansi kunci 0,5, dan rasio ekspansi nilai 1. Untuk lapisan RetNet kami menggunakan jumlah kepala yang setengah dari jumlah kepala kueri perhatian, rasio ekspansi kunci 1 dan rasio ekspansi nilai 2. Implementasi GLA dan RetNet berasal dari repositori Flash Linear Attention[3] [YZ24]. Kami menggunakan implementasi berbasis FlashAttention untuk ekstrapolasi Self-Extend[4]. Model Mamba 432M memiliki lebar model 1024 dan model Mamba 1.3B memiliki lebar model 2048. Semua model yang dilatih pada SlimPajama memiliki konfigurasi pelatihan yang sama dan ukuran menengah MLP seperti Samba, kecuali ditentukan lain. Infrastruktur pelatihan pada SlimPajama didasarkan pada versi modifikasi dari kode dasar TinyLlama[5].

\ Tabel 10: Parameter hiper terperinci dari model SAMBA yang dilatih pada skala berbeda. Kami hanya menunjukkan pengaturan optimasi untuk fase pelatihan pertama dari model 3.8B.

\ Dalam konfigurasi generasi untuk tugas hilir, kami menggunakan decoding greedy untuk GSM8K, dan Nucleus Sampling [HBD+19] dengan suhu τ = 0,2 dan top-p = 0,95 untuk HumanEval. Untuk MBPP dan SQuAD, kami menetapkan τ = 0,01 dan top-p = 0,95.

B Hasil Eksperimen Tambahan

\ Gambar 6: Kurva kehilangan pelatihan model Samba 1.7B dan Mistral 1.6B selama 500 langkah penyetelan instruksi pada Pengambilan Passkey dengan panjang urutan 4K. Kami memplot kurva kehilangan untuk kedua model menggunakan rata-rata bergerak sederhana dengan ukuran jendela 10.

\

\ Gambar 7: Akurasi pengambilan passkey keseluruhan pada panjang dokumen 256K dari model Samba 1.7B dan Mistral 1.6B selama 500 langkah penyetelan instruksi.

\

C Detail Pengukuran Entropi

\

\

D Keterbatasan

Meskipun Samba menunjukkan kinerja pengambilan memori yang menjanjikan melalui penyetelan instruksi, model dasar pra-terlatihnya memiliki kinerja pengambilan yang mirip dengan model berbasis SWA, seperti yang ditunjukkan pada Gambar 7. Ini membuka arah masa depan untuk lebih meningkatkan kemampuan pengambilan Samba tanpa mengorbankan efisiensi dan kemampuan ekstrapolasinya. Selain itu, strategi hibridisasi Samba tidak selalu lebih baik daripada alternatif lain dalam semua tugas. Seperti yang ditunjukkan pada Tabel 2, MambaSWA-MLP menunjukkan peningkatan kinerja pada tugas-tugas seperti WinoGrande, SIQA, dan GSM8K. Ini memberi kita potensi untuk berinvestasi dalam pendekatan yang lebih canggih untuk melakukan kombinasi dinamis bergantung pada input dari model berbasis SWA dan berbasis SSM.

\

:::info Penulis:

(1) Liliang Ren, Microsoft dan University of Illinois di Urbana-Champaign ([email protected]);

(2) Yang Liu†, Microsoft ([email protected]);

(3) Yadong Lu†, Microsoft ([email protected]);

(4) Yelong Shen, Microsoft ([email protected]);

(5) Chen Liang, Microsoft ([email protected]);

(6) Weizhu Chen, Microsoft ([email protected]).

:::


:::info Makalah ini tersedia di arxiv di bawah lisensi CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.

Anda Mungkin Juga Menyukai