Η Google Μειώνει τη Μνήμη της AI Χωρίς Απώλεια Ακρίβειας—Αλλά Υπάρχει μια Παγίδα

Εν συντομία

Η Google ανέφερε ότι ο αλγόριθμος TurboQuant μπορεί να μειώσει ένα σημαντικό σημείο συμφόρησης μνήμης AI τουλάχιστον εξαπλάσια χωρίς απώλεια ακρίβειας κατά τη διάρκεια της συμπερασματολογίας.
Οι μετοχές μνήμης, συμπεριλαμβανομένων των Micron, Western Digital και Seagate, έπεσαν αφού δημοσιοποιήθηκε η εργασία.
Η μέθοδος συμπιέζει τη μνήμη συμπερασματολογίας, όχι τα βάρη μοντέλου, και έχει δοκιμαστεί μόνο σε ερευνητικά benchmarks.

Η Google Research δημοσίευσε την Τετάρτη το TurboQuant, έναν αλγόριθμο συμπίεσης που συρρικνώνει ένα σημαντικό σημείο συμφόρησης μνήμης συμπερασματολογίας τουλάχιστον κατά 6x διατηρώντας παράλληλα μηδενική απώλεια ακρίβειας.

Η εργασία έχει προγραμματιστεί για παρουσίαση στο ICLR 2026 και η αντίδραση στο διαδίκτυο ήταν άμεση.

Ο CEO της Cloudflare Matthew Prince το χαρακτήρισε ως τη στιγμή DeepSeek της Google. Οι τιμές των μετοχών μνήμης, συμπεριλαμβανομένων των Micron, Western Digital και Seagate, έπεσαν την ίδια ημέρα.

Είναι λοιπόν πραγματικό;

Η αποδοτικότητα κβαντισμού είναι από μόνη της ένα μεγάλο επίτευγμα. Αλλά η "μηδενική απώλεια ακρίβειας" χρειάζεται πλαίσιο.

Το TurboQuant στοχεύει το KV cache—το τμήμα της μνήμης GPU που αποθηκεύει όλα όσα χρειάζεται να θυμάται ένα γλωσσικό μοντέλο κατά τη διάρκεια μιας συνομιλίας.

Καθώς τα παράθυρα περιβάλλοντος αυξάνονται προς εκατομμύρια tokens, αυτές οι προσωρινές μνήμες διογκώνονται σε εκατοντάδες gigabytes ανά συνεδρία. Αυτό είναι το πραγματικό σημείο συμφόρησης. Όχι η υπολογιστική ισχύς αλλά η ακατέργαστη μνήμη.

Οι παραδοσιακές μέθοδοι συμπίεσης προσπαθούν να συρρικνώσουν αυτές τις προσωρινές μνήμες στρογγυλοποιώντας τους αριθμούς προς τα κάτω—από 32-bit floats σε 16, σε 8 έως 4-bit ακέραιους, για παράδειγμα. Για να το καταλάβετε καλύτερα, σκεφτείτε τη συρρίκνωση μιας εικόνας από 4K, σε full HD, σε 720p και ούτω καθεξής. Είναι εύκολο να καταλάβεις ότι είναι η ίδια εικόνα γενικά, αλλά υπάρχουν περισσότερες λεπτομέρειες σε ανάλυση 4K.

Η παγίδα: πρέπει να αποθηκεύσουν επιπλέον "σταθερές κβαντισμού" παράλληλα με τα συμπιεσμένα δεδομένα για να αποφύγουν την απώλεια λειτουργικότητας του μοντέλου. Αυτές οι σταθερές προσθέτουν 1 έως 2 bits ανά τιμή, διαβρώνοντας μερικώς τα οφέλη.

Το TurboQuant ισχυρίζεται ότι εξαλείφει εντελώς αυτό το επιπλέον κόστος.

Το κάνει αυτό μέσω δύο υπο-αλγορίθμων. Το PolarQuant διαχωρίζει το μέγεθος από την κατεύθυνση στα διανύσματα, και το QJL (Quantized Johnson-Lindenstrauss) παίρνει το μικρό υπολειπόμενο σφάλμα που απομένει και το μειώνει σε ένα μόνο bit προσήμου, θετικό ή αρνητικό, με μηδενικές αποθηκευμένες σταθερές.

Το αποτέλεσμα, λέει η Google, είναι ένας μαθηματικά αμερόληπτος εκτιμητής για τους υπολογισμούς προσοχής που οδηγούν τα μοντέλα transformer.

Σε benchmarks που χρησιμοποιούν Gemma και Mistral, το TurboQuant ταίριαξε την απόδοση πλήρους ακρίβειας κάτω από συμπίεση 4x, συμπεριλαμβανομένης της τέλειας ακρίβειας ανάκτησης σε εργασίες needle-in-haystack έως 104.000 tokens.

Για το πλαίσιο γιατί έχουν σημασία αυτά τα benchmarks, η επέκταση του χρησιμοποιήσιμου περιβάλλοντος ενός μοντέλου χωρίς απώλεια ποιότητας ήταν ένα από τα πιο δύσκολα προβλήματα στην ανάπτυξη LLM.

Τώρα, οι λεπτομέρειες.

Η "μηδενική απώλεια ακρίβειας" ισχύει για τη συμπίεση KV cache κατά τη διάρκεια της συμπερασματολογίας—όχι για τα βάρη του μοντέλου. Η συμπίεση βαρών είναι ένα εντελώς διαφορετικό, πιο δύσκολο πρόβλημα. Το TurboQuant δεν τα αγγίζει.

Αυτό που συμπιέζει είναι η προσωρινή μνήμη που αποθηκεύει τους υπολογισμούς προσοχής μέσης συνεδρίας, που είναι πιο συγχωρητική επειδή αυτά τα δεδομένα μπορούν θεωρητικά να ανακατασκευαστούν.

Υπάρχει επίσης το χάσμα μεταξύ ενός καθαρού benchmark και ενός συστήματος παραγωγής που εξυπηρετεί δισεκατομμύρια αιτήματα. Το TurboQuant δοκιμάστηκε σε μοντέλα ανοιχτού κώδικα—Gemma, Mistral, Llama—όχι στη δική της στοίβα Gemini της Google σε κλίμακα.

Σε αντίθεση με τα οφέλη αποδοτικότητας του DeepSeek, που απαιτούσαν βαθιές αρχιτεκτονικές αποφάσεις ενσωματωμένες από την αρχή, το TurboQuant δεν απαιτεί επανεκπαίδευση ή fine-tuning και ισχυρίζεται αμελητέο επιπλέον κόστος χρόνου εκτέλεσης. Θεωρητικά, μπαίνει απευθείας σε υπάρχουσες γραμμές συμπερασματολογίας.

Αυτό είναι το μέρος που τρόμαξε τον τομέα υλικού μνήμης—επειδή αν λειτουργήσει στην παραγωγή, κάθε μεγάλο εργαστήριο AI θα τρέχει πιο οικονομικά στα ίδια GPUs που ήδη διαθέτει.

Η εργασία πηγαίνει στο ICLR 2026. Μέχρι να εφαρμοστεί στην παραγωγή, ο τίτλος "μηδενική απώλεια" παραμένει στο εργαστήριο.

Ημερήσιο Ενημερωτικό Δελτίο

Ξεκινήστε κάθε μέρα με τις κορυφαίες ειδήσεις τώρα, συν πρωτότυπα χαρακτηριστικά, ένα podcast, βίντεο και πολλά άλλα.

Πηγή: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Η Google Μειώνει τη Μνήμη της AI Χωρίς Απώλεια Ακρίβειας—Αλλά Υπάρχει μια Παγίδα

Εν συντομία

Είναι λοιπόν πραγματικό;

Ημερήσιο Ενημερωτικό Δελτίο

Μπορεί επίσης να σας αρέσει

Η Εξαγορά της BVNK από τη Mastercard θα Γεφυρώσει τις Πληρωμές σε Κρυπτονομίσματα και Fiat

Το Επόμενο Crypto που θα Εκραγεί καθώς το CME Ανοίγει Συναλλαγές Παραγώγων 24/7 και το Pepeto Presale Ξεπερνά τα $8M

Απαλλαγή Tokenization της SEC: Η Πρωτοποριακή Κανονιστική Αλλαγή Θα Μπορούσε Να Φτάσει Μέσα Σε Εβδομάδες

Νέες τάσεις

Η Εξαγορά της BVNK από τη Mastercard θα Γεφυρώσει τις Πληρωμές σε Κρυπτονομίσματα και Fiat

Το Επόμενο Crypto που θα Εκραγεί καθώς το CME Ανοίγει Συναλλαγές Παραγώγων 24/7 και το Pepeto Presale Ξεπερνά τα $8M

Απαλλαγή Tokenization της SEC: Η Πρωτοποριακή Κανονιστική Αλλαγή Θα Μπορούσε Να Φτάσει Μέσα Σε Εβδομάδες

Η σύγκρουση στη Μέση Ανατολή θέτει κινδύνους πληθωρισμού και οικονομικούς κινδύνους

Crypto Prices