Chip-Riese NVIDIA bereitet sich darauf vor, einen leistungsstarken neuen Prozessor für künstliche Intelligenz vorzustellen, der entwickelt wurde, um die Geschwindigkeit zu erhöhen, mit der Chatbots und andere KI-gesteuerte Tools Antworten generieren, wodurch heutige Systeme wie ChatGPT im Vergleich träge erscheinen könnten.
Die neue Plattform, die voraussichtlich auf der jährlichen GTC-Entwicklerkonferenz von NVIDIA debütieren wird, ist für KI-Inferenz optimiert, die Phase, in der trainierte Modelle Antworten auf Benutzeraufforderungen liefern. Im Gegensatz zu herkömmlichen GPUs, die sowohl für Training als auch Inferenz konzipiert sind, konzentriert sich der kommende Prozessor speziell darauf, Antworten schneller und effizienter zu liefern.
Das Produkt wird, falls es auf den Markt kommt, das erste greifbare Ergebnis des Dezember-Deals markieren, der die Gründer von Groq ins Boot holte, deren Unternehmen sich auf Hochgeschwindigkeits-KI-Verarbeitungshardware spezialisiert hat.
Ende letzten Jahres soll NVIDIA etwa 20 Milliarden US-Dollar ausgegeben haben, um Technologie vom Chip-Startup Groq zu lizenzieren und Schlüsselpersonal, einschließlich seines CEO, zu rekrutieren. Etwa zur gleichen Zeit sagte NVIDIA-CEO Jensen Huang den Mitarbeitern: „Wir planen, die Niedriglatenz-Prozessoren von Groq in die NVIDIA-KI-Fabrikarchitektur zu integrieren und die Plattform zu erweitern, um ein noch breiteres Spektrum an KI-Inferenz- und Echtzeit-Workloads zu bedienen."
Nun wird erwartet, dass der neue Inferenz-Chip komplexe KI-Anfragen mit hoher Geschwindigkeit verarbeiten wird, wobei OpenAI und andere führende Kunden ihn wahrscheinlich übernehmen werden, so The Wall Street Journal. Sein Bericht zeigte auch, dass der neue Chip möglicherweise nahezu 10% der Inferenz-Workload von OpenAI bewältigen könnte.
Der Groq-Stil-Chip wird SRAM verwenden, sagen Quellen
Während eines kürzlichen Gesprächs über die Geschäftsergebnisse deutete der NVIDIA-CEO an, dass mehrere neue Produkte auf der kommenden GTC-Veranstaltung vorgestellt werden, die oft als „Super Bowl der KI" beschrieben wird. Er bemerkte: „Ich habe einige großartige Ideen, die ich bei der GTC mit Ihnen teilen möchte."
Die meisten Analysten sind sich einig, dass der Groq-Stil-Chip Teil des Angebots sein könnte. Sie erklärten auch, dass sein Design Aufschluss darüber geben könnte, wie NVIDIA Speicherbeschränkungen in der Inferenz-Berechnung angehen will. Solche Plattformen laufen typischerweise auf Hochbandbreitenspeicher (HBM). Allerdings war HBM in letzter Zeit schwer zu beschaffen.
Insider haben behauptet, das Unternehmen plane, SRAM im Chip zu verwenden, anstatt des dynamischen RAM, der mit HBM verbunden ist. Idealerweise ist SRAM leichter zugänglich und kann die Leistung von KI-Reasoning-Workloads verbessern.
Wenn der Chip vorgestellt wird, könnte es ein großer Schritt nach vorn für das Chip-Unternehmen und KI-gesteuerte Modelle sein. Allerdings warf Sid Sheth, Gründer und CEO von d-Matrix, bezüglich seiner möglichen Markteinführung einen Schatten auf seine Entwicklung. Er stellte fest, dass NVIDIA zwar nach wie vor der klare Marktführer im KI-Training bleibt, Inferenz jedoch eine ganz andere Landschaft darstellt. Er teilte mit: „Entwickler können sich an andere Wettbewerber als NVIDIA wenden, weil das Ausführen fertiger KI-Modelle nicht die gleiche Art von Programmierung erfordert wie deren Training."
Dennoch treiben auch andere Tech-Giganten die Inferenz-Berechnung voran. Meta stellte diese Woche vier Prozessoren vor, die für Inferenz maßgeschneidert sind, was einen Investor aus dem Silicon Valley dazu veranlasste zu sagen, dass die Branche möglicherweise in eine nicht-„NVIDIA-dominante" Phase eintritt.
Allerdings warnte vor kurzem June Paik, CEO von FuriosaAI, einem NVIDIA-Konkurrenten, der den Nutzen leicht einsetzbarer Inferenz-Berechnungen kommentierte, dass die meisten Rechenzentren die neuesten flüssigkeitsgekühlten GPUs nicht aufnehmen können.
Dennoch erwarten die Analysten der Bank of America trotz seiner Bedenken, dass Inferenz-Workloads bis 2030 75% der Ausgaben für KI-Rechenzentren ausmachen werden, wenn der Markt etwa 1,2 Billionen US-Dollar erreicht, im Vergleich zu etwa 50% im letzten Jahr. Ben Bajarin, ein Technologieanalyst bei Creative Strategies, behauptete auch, dass Rechenzentren der Zukunft sich nicht an ein Einheitsmodell halten werden, und erwartet, dass Unternehmen unterschiedliche Ansätze für die Chip- und Anlagenentwicklung verfolgen werden.
NVIDIA wird voraussichtlich die Vera Rubin-Chips später im Jahr 2026 veröffentlichen
NVIDIA hat auch kürzlich seine KI-Chips der nächsten Generation, Vera Rubin-KI-Chips, auf den Markt gebracht und erwartet, dass der Aufstieg von Reasoning-KI-Plattformen wie DeepSeek einen noch größeren Rechenbedarf auslösen wird. Es behauptete, die Chips würden helfen, größere KI-Modelle zu trainieren und einer breiteren Nutzerbasis ausgereiftere Outputs bereitzustellen.
Laut Huang wird Rubin auch in der zweiten Hälfte von 2026 auf den Markt kommen, mit einer High-End-„Ultra"-Version, die 2027 erscheinen wird.
Er erklärte auch, dass ein einzelnes Rubin-System 576 einzelne GPUs zu einem einzigen Chip kombinieren würde. Derzeit gruppiert NVIDIAs Blackwell-Chip 72 GPUs in seinem NVL72-System, was bedeutet, dass Rubin über fortschrittlicheren Speicher verfügen wird.
Quelle: https://www.cryptopolitan.com/nvidias-chip-could-make-chatgpt-look-slow/


