Cumpără crypto Piețe Spot FuturesMU Earn Centru de evenimente

Mai mult

TurboQuant comprimă memoria cache KV a inteligenței artificiale de până la cinci ori, cu un impact minim asupra calității modelului. Actualizarea permite laptopurilor și telefoanelor să ruleze AI mai mult timpTurboQuant comprimă memoria cache KV a inteligenței artificiale de până la cinci ori, cu un impact minim asupra calității modelului. Actualizarea permite laptopurilor și telefoanelor să ruleze AI mai mult timp

Tether Aduce TurboQuant de la Google în Producție, Deblocând AI cu Context Lung pe Dispozitivele de Zi cu Zi

Sursă: Blockonomi

2026/06/02 07:46

4 min de lectură

Distribuire

AI$0.02826-11.74%

LONG$0.0007313+1.17%

Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la [email protected]

TLDR:

TurboQuant comprimă memoria cache KV a AI de până la cinci ori, cu impact minim asupra calității modelului.
Actualizarea permite laptopurilor și telefoanelor să ruleze sesiuni AI mai lungi fără dependență de cloud.
QVAC SDK 0.12.0 integrează TurboQuant în Fabric, extinzând opțiunile de dezvoltare AI locală.
Tether urmărește să avanseze AI-ul axat pe confidențialitate, aducând inferența eficientă mai aproape de utilizatorii finali.

Grupul de Cercetare AI al Tether a lansat o versiune de producție open-source a TurboQuant, un algoritm de compresie a memoriei dezvoltat inițial de Google Research.

Lansarea face parte din QVAC SDK 0.12.0 și vizează laptopuri, telefoane, dispozitive edge și rețele descentralizate. Permite modelelor AI locale să gestioneze sesiuni mai lungi fără a se baza pe infrastructura cloud.

Aceasta marchează o schimbare practică în modul în care AI-ul pe dispozitiv gestionează sarcinile intensive de memorie.

TurboQuant Comprimă Memoria AI de Până la Cinci Ori

Memoria a reprezentat multă vreme o barieră în rularea modelelor AI performante pe hardware-ul pentru consumatori. Când un asistent AI procesează un document lung sau o conversație, stochează acel context în ceea ce se numește cache-ul KV.

La aproximativ 262.000 de tokeni, cache-ul KV pentru un model 4B poate consuma singur aproximativ 8 GB de memorie. Patru sesiuni simultane pot împinge această cifră la 32 GB, fără a lua în calcul modelul în sine.

TurboQuant abordează această problemă comprimând cache-ul KV de până la cinci ori, menținând în același timp calitatea ieșirii aproape de cea a unui model necomprimat.

Un utilizator poate acum solicita unui asistent de pe laptop să analizeze un document juridic de o sută de pagini fără a-l încărca pe un server la distanță.

Studenții, dezvoltatorii, jurnaliștii și cercetătorii pot beneficia cu toții de sesiuni AI mai lungi și mai conștiente de context pe dispozitivele pe care le dețin deja.

Vorbind despre raționamentul mai larg din spatele lansării, CEO-ul Tether, Paolo Ardoino, a subliniat decalajul dintre cercetare și software-ul practic.

"Cercetările Google au arătat că memoria AI poate fi comprimată mult mai eficient decât presupuneau majoritatea oamenilor," a spus el. "Munca noastră aduce acea descoperire în software-ul de producție cu care dezvoltatorii, startup-urile și utilizatorii pot construi efectiv."

Versiunea de producție include un pipeline complet de cuantizare, adaptoare de framework, documentație pentru dezvoltatori și profiluri optimizate pentru sarcini de lucru.

Aceste componente sunt proiectate pentru medii reale din afara centrelor de date hyperscale, acoperind memoria limitată, hardware-ul mixt și implementările sensibile la latență.

QVAC SDK 0.12.0 Extinde Opțiunile de Dezvoltare AI Locală

TurboQuant vine ca parte din QVAC SDK 0.12.0, integrat direct în Fabric, o componentă de bază a stivei QVAC.

Fabric a început ca un fork al llama.cpp și de atunci a crescut pentru a incorpora multiple progrese în cercetare. SDK-ul oferă dezvoltatorilor un set unificat de instrumente, biblioteci și componente runtime pentru construirea aplicațiilor AI locale.

Pentru startup-uri și dezvoltatori independenți, aceasta elimină presupunerea că produsele AI mari necesită clustere GPU costisitoare.

Echipele pot acum proiecta pentru ferestre de context mai lungi, sarcini de lucru cu fișiere mai mari și implementare flexibilă pe hardware-ul pentru consumatori și edge. Aceasta deschide căi practice pentru construirea produselor AI fără arhitectură exclusiv cloud.

Abordând preocupările legate de confidențialitatea datelor și dependența de cloud, Ardoino a pledoat pentru menținerea sarcinilor AI pe dispozitivele locale.

"Oamenii ar trebui să poată cere unui asistent AI să citească un document lung sau să lucreze cu informații private fără ca fiecare sarcină să fie forțată printr-un centru de date la distanță," a spus el. TurboQuant, în acest sens, oferă AI-ului local mai mult spațiu operațional.

Strategia Tether se concentrează pe AI care rulează mai aproape de utilizatori, pe dispozitive personale și rețele descentralizate. Compania vede eficiența software și portabilitatea ca factori definitorii în următoarea fază a dezvoltării AI, alături de infrastructura de calcul la scară largă.

Articolul Tether Aduce TurboQuant de la Google în Producție, Deblocând AI cu Context Lung pe Dispozitivele de Zi cu Zi a apărut prima dată pe Blockonomi.

Oportunitate de piață

Pret Gensyn (AI)

$0.02828

$0.02828$0.02828

+0.71%

USD

Gensyn (AI) graficul prețurilor în timp real

SPACEX(PRE) Launchpad

Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează [email protected] pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.