Chipgigant NVIDIA bereidt zich voor om een krachtige nieuwe kunstmatige intelligentieprocessor te onthullen die is ontworpen om te versnellen hoe chatbots en andere AI-tools reacties genereren, waardoor de huidige systemen zoals ChatGPT er in vergelijking traag uit kunnen zien.
Het nieuwe platform, dat naar verwachting zal debuteren op NVIDIA's jaarlijkse GTC-ontwikkelaarsconferentie, is geoptimaliseerd voor AI-inferentie, de fase waarin getrainde modellen antwoorden produceren op gebruikersvragen. In tegenstelling tot traditionele GPU's die zijn gebouwd om zowel training als inferentie te verwerken, richt de aankomende processor zich specifiek op het sneller en efficiënter leveren van reacties.
Het product, indien gelanceerd, zal het eerste tastbare resultaat markeren van de deal van december die de oprichters van Groq aan boord bracht, wiens bedrijf gespecialiseerd is in hoogwaardige AI-verwerkingshardware.
Eind vorig jaar zou NVIDIA naar verluidt ongeveer $20 miljard hebben uitgegeven om technologie te licentiëren van de chipstartup Groq en om belangrijk personeel te rekruteren, inclusief de CEO. Rond dezelfde tijd vertelde NVIDIA CEO Jensen Huang aan medewerkers: "We zijn van plan om Groq's low-latency processors te integreren in de NVIDIA AI-fabrieksarchitectuur, waardoor het platform wordt uitgebreid om een nog breder scala aan AI-inferentie en real-time workloads te bedienen."
Nu wordt verwacht dat de nieuwe inferentiechip complexe AI-vragen op hoge snelheid kan verwerken, waarbij OpenAI en andere toonaangevende klanten het waarschijnlijk zullen adopteren, volgens The Wall Street Journal. Het rapport toonde ook aan dat de nieuwe chip mogelijk bijna 10% van de inferentie-workload van OpenAI kan verwerken.
De Groq-stijl chip zal SRAM gebruiken, zeggen bronnen
Tijdens een recente winstoproep hintte de CEO van NVIDIA dat verschillende nieuwe producten zullen worden onthuld tijdens het aankomende GTC-evenement, vaak beschreven als de "Super Bowl van AI." Hij merkte op: "Ik heb een aantal geweldige ideeën die ik graag met jullie zou willen delen op GTC."
De meeste analisten zijn het erover eens dat de Groq-stijl chip onderdeel zou kunnen zijn van het aanbod. Ze stelden ook dat het ontwerp licht zou kunnen werpen op hoe NVIDIA de geheugenbeperkingen in inferentie-computing wil aanpakken. Dergelijke platforms draaien doorgaans op high-bandwidth memory (HBM). HBM is echter de laatste tijd moeilijk te verkrijgen geweest.
Insiders hebben beweerd dat het bedrijf van plan is om SRAM in de chip te gebruiken in plaats van het dynamische RAM dat wordt geassocieerd met HBM. Idealiter is SRAM toegankelijker en kan het de prestaties van AI-redeneerworkloads verbeteren.
Als de chip wordt onthuld, zou het een grote stap voorwaarts kunnen zijn voor het chipbedrijf en AI-getrainde modellen. Sid Sheth, oprichter en CEO van d-Matrix, wierp echter een schaduw over de ontwikkeling toen hij sprak over de mogelijke lancering. Hij merkte op dat hoewel NVIDIA de duidelijke leider blijft in AI-training, inferentie een heel ander landschap vertegenwoordigt. Hij deelde: "Ontwikkelaars kunnen zich wenden tot andere concurrenten dan NVIDIA omdat het uitvoeren van voltooide AI-modellen niet hetzelfde type programmering vereist als het trainen ervan."
Desondanks werken andere techgiganten ook aan inferentie-computing. Meta onthulde deze week vier processors die zijn afgestemd op inferentie, wat een Silicon Valley-investeerder deed zeggen dat de industrie mogelijk een niet-"NVIDIA-dominante" fase ingaat.
Meer recentelijk waarschuwde June Paik, chief executive van FuriosaAI, een NVIDIA-concurrent, die commentaar gaf op het voordeel van gemakkelijk inzetbare inferentie-computing, dat de meeste datacenters de nieuwste vloeistofgekoelde GPU's niet kunnen accommoderen.
Desondanks verwachten de analisten van Bank of America, ondanks zijn zorgen, dat inferentie-workloads tegen 2030 75% van de AI-datacenteruitgaven zullen vertegenwoordigen, wanneer de markt ongeveer $1,2 biljoen bereikt, tegenover ongeveer 50% vorig jaar. Ben Bajarin, een technologie-analist bij Creative Strategies, beweerde ook dat datacenters van de toekomst niet zullen voldoen aan een one-size-fits-all model, en verwacht dat bedrijven verschillende benaderingen zullen hanteren voor chip- en faciliteitsontwikkeling.
NVIDIA zal naar verwachting later in 2026 de Vera Rubin-chips uitbrengen
NVIDIA heeft ook onlangs zijn volgende generatie AI-chips uitgebracht, Vera Rubin AI-chips, in de verwachting dat de opkomst van redenerende AI-platforms zoals DeepSeek een nog grotere computervraag zal aanwakkeren. Het beweerde dat de chips zouden helpen bij het trainen van grotere AI-modellen en meer geavanceerde outputs aan een breder gebruikersbestand zouden leveren.
Volgens Huang zal Rubin ook in de tweede helft van 2026 op de markt komen, met een high-end "ultra" versie die in 2027 komt.
Hij legde ook uit dat een enkel Rubin-systeem 576 individuele GPU's zou combineren in een enkele chip. Momenteel clustert NVIDIA's Blackwell-chip 72 GPU's in zijn NVL72-systeem, wat betekent dat Rubin geavanceerder geheugen zal hebben.
Bron: https://www.cryptopolitan.com/nvidias-chip-could-make-chatgpt-look-slow/


