TLDR: TurboQuant komprimiert den KV-Cache-Speicher von KI um bis zu fünfmal mit minimalen Auswirkungen auf die Modellqualität. Das Upgrade ermöglicht es Laptops und Telefonen, längere KI-Sitzungen auszuführenTLDR: TurboQuant komprimiert den KV-Cache-Speicher von KI um bis zu fünfmal mit minimalen Auswirkungen auf die Modellqualität. Das Upgrade ermöglicht es Laptops und Telefonen, längere KI-Sitzungen auszuführen

Tether bringt Googles TurboQuant in die Produktion und ermöglicht KI mit langem Kontext auf alltäglichen Geräten

2026/06/02 07:46
3 Min. Lesezeit
Bei Feedback oder Anliegen zu diesem Inhalt kontaktieren Sie uns bitte unter [email protected]

TLDR:

  • TurboQuant komprimiert den KI-KV-Cache-Speicher um bis zu das Fünffache bei minimaler Beeinträchtigung der Modellqualität.
  • Das Upgrade ermöglicht es Laptops und Smartphones, längere KI-Sitzungen ohne Cloud-Abhängigkeit durchzuführen.
  • QVAC SDK 0.12.0 integriert TurboQuant in Fabric und erweitert die lokalen KI-Entwicklungsoptionen.
  • Tether zielt darauf ab, datenschutzorientierte KI voranzutreiben, indem effiziente Inferenz näher an die Endnutzer gebracht wird.

Die KI-Forschungsgruppe von Tether hat eine Open-Source-Produktionsversion von TurboQuant veröffentlicht, einem Speicherkomprimierungsalgorithmus, der ursprünglich von Google Research entwickelt wurde.

Die Veröffentlichung ist Teil von QVAC SDK 0.12.0 und richtet sich an Laptops, Smartphones, Edge-Geräte und dezentrale Netzwerke. Sie ermöglicht es lokalen KI-Modellen, längere Sitzungen zu bewältigen, ohne auf Cloud-Infrastruktur angewiesen zu sein.

Dies markiert einen praktischen Wandel in der Art und Weise, wie gerätegebundene KI speicherintensive Aufgaben verwaltet.

TurboQuant komprimiert KI-Speicher um bis zu das Fünffache

Speicher war seit Langem eine Hürde für den Betrieb leistungsfähiger KI-Modelle auf Consumer-Hardware. Wenn ein KI-Assistent ein langes Dokument oder eine Konversation verarbeitet, speichert er diesen Kontext im sogenannten KV-Cache.

Bei etwa 262.000 Token kann der KV-Cache eines 4B-Modells allein rund 8 GB Speicher beanspruchen. Vier gleichzeitige Sitzungen können diesen Wert auf 32 GB treiben, noch bevor das Modell selbst berücksichtigt wird.

TurboQuant begegnet diesem Problem, indem es den KV-Cache um bis zu das Fünffache komprimiert und dabei die Ausgabequalität nahe an einem unkomprimierten Modell hält.

Ein Nutzer kann nun einen laptop-basierten Assistenten bitten, ein hundert Seiten langes juristisches Dokument zu analysieren, ohne es auf einen Remote-Server hochzuladen.

Schüler, Entwickler, Journalisten und Forscher können alle von längeren, kontextbewussteren KI-Sitzungen auf Geräten profitieren, die sie bereits besitzen.

Zu den übergeordneten Überlegungen hinter der Veröffentlichung sprach Tether-CEO Paolo Ardoino über die Lücke zwischen Forschung und praktischer Software.

"Googles Forschung zeigte, dass KI-Speicher weitaus effizienter komprimiert werden kann, als die meisten Menschen angenommen hatten," sagte er. "Unsere Arbeit bringt diesen Durchbruch in Produktionssoftware, mit der Entwickler, Startups und Nutzer tatsächlich arbeiten können."

Die Produktionsversion umfasst eine vollständige Quantisierungspipeline, Framework-Adapter, Entwicklerdokumentation und workload-optimierte Profile.

Diese Komponenten sind für reale Umgebungen außerhalb hyperscaliger Rechenzentren konzipiert und decken eingeschränkten Speicher, gemischte Hardware und latenzsensitive Deployments ab.

QVAC SDK 0.12.0 erweitert lokale KI-Entwicklungsoptionen

TurboQuant wird als Teil von QVAC SDK 0.12.0 geliefert und direkt in Fabric integriert, einer Kernkomponente des QVAC-Stacks.

Fabric begann als llama.cpp-Fork und hat sich seitdem weiterentwickelt, um mehrere Forschungsfortschritte zu integrieren. Das SDK gibt Entwicklern einen einheitlichen Satz an Tools, Bibliotheken und Laufzeitkomponenten für die Entwicklung lokaler KI-Anwendungen.

Für Startups und unabhängige Entwickler beseitigt dies die Annahme, dass große KI-Produkte teure GPU-Cluster erfordern.

Teams können nun für längere Kontextfenster, größere Dateiarbeitslasten und flexible Deployments über Consumer- und Edge-Hardware hinweg entwickeln. Das eröffnet praktische Wege zur Entwicklung von KI-Produkten ohne reine Cloud-Architektur.

Im Hinblick auf Bedenken rund um Datenschutz und Cloud-Abhängigkeit plädierte Ardoino dafür, KI-Aufgaben auf lokalen Geräten zu behalten.

"Menschen sollten in der Lage sein, einen KI-Assistenten zu bitten, ein langes Dokument zu lesen oder private Informationen zu verarbeiten, ohne dass jede Aufgabe durch ein entferntes Rechenzentrum geleitet werden muss," sagte er. TurboQuant gibt der lokalen KI in diesem Sinne mehr operativen Spielraum.

Tethers Strategie konzentriert sich auf KI, die näher an den Nutzern läuft – auf persönlichen Geräten und in dezentralen Netzwerken. Das Unternehmen sieht Software-Effizienz und Portabilität als bestimmende Faktoren in der nächsten Phase der KI-Entwicklung, neben großskaliger Recheninfrastruktur.

Der Beitrag Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices erschien zuerst auf Blockonomi.

Marktchance
Gensyn Logo
Gensyn Kurs(AI)
$0.02327
$0.02327$0.02327
+3.88%
USD
Gensyn (AI) Echtzeit-Preis-Diagramm

Predict & Trade to Win Rewards

Predict & Trade to Win RewardsPredict & Trade to Win Rewards

Guaranteed rewards with $500,000 prize pool

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.

RealStocks Now Live

RealStocks Now LiveRealStocks Now Live

Trade real U.S. stock via regulated brokerage