O artigo Character.ai Unveils Efficient Techniques for Large-Scale Pretraining apareceu em BitcoinEthereumNews.com. Tony Kim 23 de dez. de 2025 21:56 Character.aiO artigo Character.ai Unveils Efficient Techniques for Large-Scale Pretraining apareceu em BitcoinEthereumNews.com. Tony Kim 23 de dez. de 2025 21:56 Character.ai

Character.ai revela técnicas eficientes para pré-treino em grande escala



Tony Kim
23 de dez de 2025 21:56

A Character.ai revela métodos inovadores para otimizar o pré-treino em larga escala, focando em técnicas como Squinch, dynamic clamping e Gumbel Softmax, para melhorar a eficiência no treino de modelos de IA.

A Character.ai, um interveniente notável no espaço da IA, partilhou recentemente insights sobre os seus primeiros esforços para otimizar o treino de transformers em larga escala. A empresa, que desde então mudou o seu foco para fundações de modelos open-source, explorou originalmente várias técnicas para melhorar a eficiência e velocidade de treino, de acordo com o Character.AI Blog.

Compressão de Gradiente: Squinch

Uma das principais inovações destacadas nos esforços da Character.ai é um algoritmo de compressão de gradiente conhecido como Squinch. Desenvolvido pelo cofundador Noam Shazeer, esta técnica de compressão de 6 bits foi concebida para reduzir significativamente a largura de banda de comunicação durante o treino distribuído, mantendo a precisão do modelo. O algoritmo comprime efetivamente os gradientes para 6 bits por elemento, otimizando o uso da largura de banda dos clusters de treino.

Regularização de Precisão: Attention Z-Reg

A Character.ai também desenvolveu o Attention Z-Reg, um método de regularização aplicado aos logits de atenção para garantir estabilidade numérica. Esta técnica ajuda a manter a precisão das representações bfloat16, crucial para otimizar o treino de modelos grandes.

Estabilidade de Quantização: Dynamic Clamping

O Dynamic Clamping é outra técnica empregue para melhorar a estabilidade de quantização. Previne que valores de ativação pequenos colapsem para zero ao calcular dinamicamente o intervalo de clamping baseado na raiz quadrada média dos pesos de entrada. Este método melhora a estabilidade de treino ao reduzir erros de quantização.

API de Atenção Eficiente: Visibility Mask

A introdução do Visibility Mask, uma ferramenta para representar relações entre tokens durante o treino e inferência, melhorou a eficiência dos sistemas de treino. Esta API ajuda a gerir intervalos de atenção dentro de lotes, suportando relações de documentos estruturadas em árvore e atenção bidirecional.

Otimização de Destilação: Gumbel Softmax

No domínio da destilação de modelos, a Character.ai aproveitou a técnica Gumbel Softmax para reduzir custos de armazenamento e largura de banda mantendo a fidelidade dos modelos professor. Esta abordagem envolve a amostragem de subconjuntos de outputs do modelo professor, preservando valores de alvos soft para um treino de modelo estudante mais eficiente.

Os esforços da Character.ai na otimização do pré-treino abriram caminho para um treino de modelos de IA mais eficiente, mesmo quando a empresa muda para aprendizagem por reforço pós-treino para modelos open-source. Estas técnicas, incluindo Squinch e Gumbel Softmax, sublinham o compromisso da empresa em avançar a eficiência e escalabilidade da IA.

Fonte da imagem: Shutterstock

Fonte: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Oportunidade de mercado
Logo de Sleepless AI
Cotação Sleepless AI (AI)
$0.03865
$0.03865$0.03865
+3.73%
USD
Gráfico de preço em tempo real de Sleepless AI (AI)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail [email protected] para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

Você também pode gostar

Offchain Labs Compra Tokens ARB Adicionais à Medida que Arbitrum Ultrapassa 20 Mil Milhões de Dólares em TVL

Offchain Labs Compra Tokens ARB Adicionais à Medida que Arbitrum Ultrapassa 20 Mil Milhões de Dólares em TVL

A Offchain Labs, a empresa de desenvolvimento por trás da solução de escalabilidade de Camada 2 Arbitrum, adquiriu tokens ARB adicionais ao abrigo de um plano de recompra de tokens previamente aprovado, coincidindo com o Arbitrum a ultrapassar os 20 mil milhões de dólares em Valor Total Bloqueado (TVL) e reforçando o compromisso da empresa com o crescimento do ecossistema, à medida que a competição se intensifica entre as redes de Camada 2 da Ethereum por quota de mercado, atividade de programadores e liquidez.
Compartilhar
MEXC NEWS2025/12/25 14:21
Ondo Finance vai lançar ações e ETFs tokenizados dos EUA na Solana no início de 2026

Ondo Finance vai lançar ações e ETFs tokenizados dos EUA na Solana no início de 2026

A Ondo Finance planeia lançar ações tokenizadas dos EUA e fundos negociados em bolsa na blockchain Solana no início de 2026, marcando uma expansão significativa da plataforma de tokenização de ativos reais (RWA) da empresa para além do seu foco atual em obrigações do Tesouro e fundos do mercado monetário para os mercados de ações com estruturas com custódia que permitem transferências e negociação on-chain 24 horas por dia.
Compartilhar
MEXC NEWS2025/12/25 14:19
23,7 mil milhões de dólares em opções de Bitcoin e 446.000 contratos IBIT expiram na sexta-feira

23,7 mil milhões de dólares em opções de Bitcoin e 446.000 contratos IBIT expiram na sexta-feira

Aproximadamente 300.000 contratos de opções de Bitcoin avaliados em 23,7 mil milhões de dólares e 446.000 contratos de opções iShares Bitcoin Trust (IBIT) estão programados para expirar esta sexta-feira, 27 de dezembro de 2025, criando potencial para volatilidade significativa de preços à medida que os traders fecham posições, cobrem exposições e os criadores de mercado ajustam inventários numa das maiores expirações trimestrais de derivativos na história do mercado de criptomoedas que poderá influenciar a trajetória de preços do Bitcoin no final do ano e início de 2026.
Compartilhar
MEXC NEWS2025/12/25 14:31