USDT stablecoin-uitgever Tether heeft de lancering aangekondigd van wat het omschrijft als het eerste cross-platform LoRA fine-tuning framework ontworpen voor Microsoft BitNet-modellen, die gebaseerd zijn op 1-bit grote taalmodelarchitectuur. De capaciteit is geïntegreerd in zijn QVAC Fabric-systeem en zou zowel het geheugengebruik als de rekenkracht aanzienlijk verminderen. Volgens het bedrijf stelt deze ontwikkeling grootschalige taalmodellen, inclusief modellen met miljarden parameters, in staat om te worden afgestemd met behulp van algemeen beschikbare consumerhardware zoals laptops, standaard grafische verwerkingseenheden en moderne smartphones.
De ontwikkeling en het onderhoud van kunstmatige intelligentiesystemen hebben traditioneel enterprise-grade hardware vereist, met name gespecialiseerde NVIDIA-infrastructuur of cloud-gebaseerde omgevingen. Deze vereisten hebben bijgedragen aan hoge operationele kosten, waardoor toegang tot geavanceerde AI-ontwikkeling voornamelijk beperkt blijft tot grote organisaties met aanzienlijke financiële middelen en toegang tot gespecialiseerde computersystemen.
Tether verklaarde dat zijn QVAC Fabric grote taalmodel, verbeterd door het nieuw geïntroduceerde BitNet-gebaseerde framework, deze beperkingen aanpakt door cross-platform LoRA fine-tuning te ondersteunen en inferentie te versnellen over een reeks heterogene consumer-GPU's. Deze omvatten hardware van Intel, AMD en Apple Silicon, onder andere. Als gevolg hiervan kunnen gebruikers AI-modellen rechtstreeks trainen en aanpassen op algemeen beschikbare consumentenapparaten in plaats van te vertrouwen op gecentraliseerde infrastructuur.
Het bedrijf meldde dat zijn engineeringteam met succes BitNet fine-tuning op mobiele grafische verwerkingseenheden heeft gedemonstreerd voor het eerst, inclusief platforms zoals Adreno, Mali en Apple Bionic GPU's. Interne tests gaven aan dat een 125 miljoen-parameter BitNet-model in ongeveer tien minuten kon worden afgestemd op een Samsung S25-apparaat uitgerust met een Adreno GPU met behulp van een biomedische dataset bestaande uit ongeveer 300 documenten, of ongeveer 18.000 tokens. Voor een 1 miljard-parameter model vereiste dezelfde dataset ongeveer één uur en achttien minuten op de Samsung S25 en één uur en vijfenveertig minuten op een iPhone 16. Het bedrijf meldde ook dat het in staat was om tests uit te breiden naar modellen tot 13 miljard parameters op de iPhone 16 onder maximale apparaatcapaciteitsomstandigheden.
Verdere bevindingen suggereren dat het framework fine-tuning kan ondersteunen van modellen tot twee keer de grootte van vergelijkbare niet-BitNet-modellen die werken onder Q4-kwantisatie op edge-apparaten. Dit resultaat wordt toegeschreven aan de verminderde geheugenvoetafdruk die geassocieerd is met de BitNet-architectuur.
Naast verbeteringen in training, demonstreert het framework ook verbeterde inferentieprestaties. Tests uitgevoerd op mobiele apparaten gaven aan dat BitNet-modellen aanzienlijk sneller presteren wanneer ze op GPU's worden uitgevoerd, met verwerkingssnelheden variërend van twee tot elf keer hoger dan CPU-gebaseerde uitvoering. Deze resultaten geven aan dat mobiele GPU's steeds meer in staat zijn om werklasten af te handelen die voorheen gespecialiseerde hardware of datacenterniveau-middelen vereisten.
Het systeem vertoont ook opmerkelijke verbeteringen in geheugenefficiëntie. Benchmarkgegevens suggereren dat een BitNet-1B-model met TQ1_0-configuratie tot 77,8 procent minder VRAM vereist in vergelijking met een 16-bit Gemma-3-1B-model en 65,6 procent minder dan een 16-bit Qwen3-0,6B-model tijdens zowel inferentie- als LoRA fine-tuning-processen. Deze verminderingen bieden extra capaciteit voor het uitvoeren van grotere modellen en het mogelijk maken van personalisatiefuncties op hardware die voorheen als ontoereikend zou zijn beschouwd.
Tether gaf verder aan dat het framework voor het eerst LoRA fine-tuning-mogelijkheden voor 1-bit grote taalmodellen op niet-NVIDIA-hardware introduceert, waardoor de compatibiliteit wordt uitgebreid naar AMD, Intel, Apple Silicon en mobiele GPU-platforms. Door de afhankelijkheid van gespecialiseerde infrastructuur en clouddiensten te verminderen, staat de aanpak toe dat gevoelige gegevens lokaal op gebruikersapparaten blijven opgeslagen. Het bedrijf merkte op dat deze efficiëntie ook de ontwikkeling van federated learning-systemen kan ondersteunen, waarin modellen gezamenlijk kunnen worden getraind over gedistribueerde apparaten terwijl de gegevensprivacy behouden blijft en de afhankelijkheid van gecentraliseerde systemen wordt geminimaliseerd.
Het bericht Tether lanceert Cross-Platform BitNet LoRA Framework dat AI-training en inferentie met miljarden parameters op consumentenapparaten mogelijk maakt verscheen eerst op Metaverse Post.


