Penerbit stablecoin USDT, Tether, mengumumkan peluncuran apa yang digambarkannya sebagai framework fine-tuning LoRA lintas platform pertama yang dirancang untuk model Microsoft BitNet, yang berbasis pada arsitektur model bahasa besar 1-bit. Kemampuan ini terintegrasi ke dalam sistem QVAC Fabric dan dilaporkan secara signifikan mengurangi penggunaan memori dan kebutuhan komputasi. Menurut perusahaan, pengembangan ini memungkinkan model bahasa besar skala besar, termasuk yang memiliki miliaran parameter, untuk di-fine-tune menggunakan perangkat keras konsumen yang tersedia secara luas seperti laptop, unit pemrosesan grafis standar, dan smartphone modern.
Pengembangan dan pemeliharaan sistem kecerdasan buatan secara tradisional memerlukan perangkat keras tingkat perusahaan, khususnya infrastruktur NVIDIA khusus atau lingkungan berbasis cloud. Persyaratan ini telah berkontribusi pada biaya operasional yang tinggi, membatasi akses ke pengembangan AI canggih terutama untuk organisasi besar dengan sumber daya keuangan yang substansial dan akses ke sistem komputasi khusus.
Tether menyatakan bahwa model bahasa besar QVAC Fabric-nya, yang ditingkatkan dengan framework berbasis BitNet yang baru diperkenalkan, mengatasi keterbatasan ini dengan mendukung fine-tuning LoRA lintas platform dan mempercepat inferensi di berbagai GPU konsumen heterogen. Ini termasuk perangkat keras dari Intel, AMD, dan Apple Silicon, antara lain. Hasilnya, pengguna dapat melatih dan menyesuaikan model AI secara langsung pada perangkat konsumen yang tersedia secara umum daripada bergantung pada infrastruktur terpusat.
Perusahaan melaporkan bahwa tim tekniknya telah berhasil mendemonstrasikan fine-tuning BitNet pada unit pemrosesan grafis seluler untuk pertama kalinya, termasuk platform seperti Adreno, Mali, dan Apple Bionic GPU. Pengujian internal menunjukkan bahwa model BitNet 125 juta parameter dapat di-fine-tune dalam waktu sekitar sepuluh menit pada perangkat Samsung S25 yang dilengkapi dengan GPU Adreno menggunakan dataset biomedis yang terdiri dari sekitar 300 dokumen, atau sekitar 18.000 token. Untuk model 1 miliar parameter, dataset yang sama memerlukan waktu sekitar satu jam delapan belas menit pada Samsung S25 dan satu jam empat puluh lima menit pada iPhone 16. Perusahaan juga melaporkan bahwa mereka dapat memperluas pengujian ke model sebesar 13 miliar parameter pada iPhone 16 dalam kondisi kapasitas perangkat maksimum.
Temuan lebih lanjut menunjukkan bahwa framework dapat mendukung fine-tuning model hingga dua kali ukuran model non-BitNet yang sebanding yang beroperasi di bawah kuantisasi Q4 pada perangkat edge. Hasil ini disebabkan oleh jejak memori yang berkurang yang terkait dengan arsitektur BitNet.
Selain peningkatan dalam pelatihan, framework juga menunjukkan kinerja inferensi yang ditingkatkan. Tes yang dilakukan pada perangkat seluler menunjukkan bahwa model BitNet berkinerja jauh lebih cepat ketika dijalankan pada GPU, dengan kecepatan pemrosesan mulai dari dua hingga sebelas kali lebih tinggi daripada eksekusi berbasis CPU. Hasil ini menunjukkan bahwa GPU seluler semakin mampu menangani beban kerja yang sebelumnya memerlukan perangkat keras khusus atau sumber daya tingkat pusat data.
Sistem ini juga menunjukkan peningkatan yang signifikan dalam efisiensi memori. Data benchmark menunjukkan bahwa model BitNet-1B menggunakan konfigurasi TQ1_0 memerlukan hingga 77,8 persen lebih sedikit VRAM dibandingkan dengan model Gemma-3-1B 16-bit dan 65,6 persen lebih sedikit daripada model Qwen3-0.6B 16-bit selama proses inferensi dan fine-tuning LoRA. Pengurangan ini memberikan kapasitas tambahan untuk menjalankan model yang lebih besar dan mengaktifkan fitur personalisasi pada perangkat keras yang sebelumnya dianggap tidak memadai.
Tether lebih lanjut menunjukkan bahwa framework memperkenalkan kemampuan fine-tuning LoRA untuk model bahasa besar 1-bit pada perangkat keras non-NVIDIA untuk pertama kalinya, memperluas kompatibilitas ke AMD, Intel, Apple Silicon, dan platform GPU seluler. Dengan mengurangi ketergantungan pada infrastruktur khusus dan layanan cloud, pendekatan ini memungkinkan data sensitif tetap disimpan secara lokal pada perangkat pengguna. Perusahaan mencatat bahwa efisiensi ini juga dapat mendukung pengembangan sistem pembelajaran terfederasi, di mana model dapat dilatih secara kolaboratif di seluruh perangkat terdistribusi sambil menjaga privasi data dan meminimalkan ketergantungan pada sistem terpusat.
Postingan Tether Meluncurkan Framework BitNet LoRA Lintas Platform yang Memungkinkan Pelatihan dan Inferensi AI Miliaran Parameter pada Perangkat Konsumen muncul pertama kali di Metaverse Post.


