A gigante de chips NVIDIA está a preparar-se para revelar um novo e poderoso processador de inteligência artificial concebido para acelerar a forma como os chatbots e outras ferramentas de IA geram respostas, tornando potencialmente os sistemas atuais como o ChatGPT lentos em comparação.
A nova plataforma, que deverá estrear na conferência anual de programadores GTC da NVIDIA, está otimizada para inferência de IA, a fase em que os modelos treinados produzem respostas às solicitações dos utilizadores. Ao contrário das GPUs tradicionais concebidas para lidar tanto com o treino como com a inferência, o próximo processador concentra-se especificamente em fornecer respostas de forma mais rápida e eficiente.
O produto, se lançado, marcará o primeiro resultado tangível do acordo de dezembro que trouxe os fundadores da Groq, cuja empresa é especializada em hardware de processamento de IA de alta velocidade.
No final do ano passado, a NVIDIA terá gasto cerca de 20 mil milhões de dólares para licenciar tecnologia da startup de chips Groq e recrutar pessoal-chave, incluindo o seu CEO. Ao mesmo tempo, o CEO da NVIDIA, Jensen Huang, disse aos funcionários: "Planeamos integrar os processadores de baixa latência da Groq na arquitetura da fábrica de IA da NVIDIA, expandindo a plataforma para servir uma gama ainda mais ampla de inferência de IA e cargas de trabalho em tempo real."
Agora, espera-se que o novo chip de inferência lide com consultas complexas de IA a alta velocidade, com a OpenAI e outros clientes líderes provavelmente a adotá-lo, de acordo com o The Wall Street Journal. O seu relatório também mostrou que o novo chip pode lidar com cerca de 10% da carga de trabalho de inferência da OpenAI.
O chip estilo Groq usará SRAM, dizem as fontes
Durante uma recente conferência de resultados, o CEO da NVIDIA insinuou que vários novos produtos serão revelados no próximo evento GTC, frequentemente descrito como o "Super Bowl da IA". Ele comentou: "Tenho algumas ótimas ideias que gostaria de partilhar consigo no GTC."
A maioria dos analistas concorda que o chip estilo Groq pode fazer parte da lista. Eles também afirmaram que o seu design pode esclarecer como a NVIDIA pretende abordar as limitações de memória na computação de inferência. Tais plataformas normalmente funcionam com memória de alta largura de banda (HBM). No entanto, o HBM tem sido difícil de obter ultimamente.
Insiders afirmaram que a empresa planeia usar SRAM no chip em vez da RAM dinâmica associada ao HBM. Idealmente, a SRAM é mais acessível e pode melhorar o desempenho das cargas de trabalho de raciocínio de IA.
Se o chip for revelado, poderá ser um grande passo em frente para a empresa de chips e para os modelos treinados por IA. No entanto, falando sobre o seu possível lançamento, Sid Sheth, fundador e CEO da d-Matrix, lançou uma sombra sobre o seu desenvolvimento. Ele observou que, embora a NVIDIA continue a ser a líder clara no treino de IA, a inferência representa uma paisagem muito diferente. Ele partilhou: "Os programadores podem recorrer a concorrentes que não a NVIDIA porque executar modelos de IA finalizados não requer o mesmo tipo de programação que treiná-los."
No entanto, outros gigantes tecnológicos também estão a avançar na computação de inferência. A Meta revelou esta semana quatro processadores adaptados para inferência, levando um investidor do Silicon Valley a dizer que a indústria pode estar a entrar numa fase não "dominada pela NVIDIA".
No entanto, mais recentemente, June Paik, diretor executivo da FuriosaAI, uma rival da NVIDIA, comentando sobre o benefício da computação de inferência facilmente implantável, alertou que a maioria dos centros de dados não consegue acomodar as mais recentes GPUs refrigeradas a líquido.
Ainda assim, apesar das suas preocupações, os analistas do Bank of America esperam que as cargas de trabalho de inferência representem 75% dos gastos em centros de dados de IA até 2030, quando o mercado atingir cerca de 1,2 biliões de dólares, contra cerca de 50% no ano passado. Ben Bajarin, um analista tecnológico da Creative Strategies, também afirmou que os centros de dados do futuro não se conformarão a um modelo único, antecipando que as empresas adotarão diferentes abordagens ao desenvolvimento de chips e instalações.
A NVIDIA deverá lançar os chips Vera Rubin no final de 2026
A NVIDIA também lançou recentemente os seus chips de IA de próxima geração, os chips de IA Vera Rubin, antecipando que o aumento de plataformas de IA de raciocínio como o DeepSeek alimentará uma procura computacional ainda maior. Afirmou que os chips ajudariam a treinar modelos de IA maiores e a fornecer resultados mais sofisticados a uma base de utilizadores mais ampla.
De acordo com Huang, o Rubin também chegará ao mercado no segundo semestre de 2026, com uma versão "ultra" de alta gama a chegar em 2027.
Ele também explicou que um único sistema Rubin combinaria 576 GPUs individuais num único chip. Atualmente, o chip Blackwell da NVIDIA agrupa 72 GPUs no seu sistema NVL72, o que significa que o Rubin apresentará memória mais avançada.
Fonte: https://www.cryptopolitan.com/nvidias-chip-could-make-chatgpt-look-slow/


