Os investigadores testaram como diferentes tons, desde muito educados a muito rudes, afetam o desempenho do ChatGPT-4o em questões de escolha múltiplaOs investigadores testaram como diferentes tons, desde muito educados a muito rudes, afetam o desempenho do ChatGPT-4o em questões de escolha múltipla

Porque ser educado com a IA pode estar a prejudicar os seus resultados

2026/03/26 18:18
Leu 8 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em [email protected]

Durante anos, o conselho para interagir com inteligência artificial soou quase pitoresco: seja educado, seja claro, diga "por favor". Mas uma nova pesquisa sugere que este instinto, enraizado nas normas sociais humanas, pode estar silenciosamente a comprometer o desempenho dos sistemas de IA.

Um estudo apresentado no Workshop NeurIPS 2025, publicado em setembro de 2025, intitulado "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy", descobriu que o tom que utiliza ao interagir com modelos de linguagem de grande escala (LLMs) pode alterar mensuravelmente a sua precisão. E num resultado que parece contraintuitivo, até perturbador, prompts mais educados podem na verdade produzir piores resultados.

Os investigadores testaram como diferentes tons, variando de muito educado a muito rude, afetam o desempenho do ChatGPT-4o em questões de escolha múltipla. Utilizando um conjunto de dados de 50 questões moderadamente difíceis em matemática, ciência e história, criaram cinco versões de cada prompt: muito educado, educado, neutro, rude e muito rude.

A única diferença entre estes prompts era o tom. As questões em si permaneceram idênticas.

De acordo com o estudo, a precisão aumentou constantemente à medida que os prompts se tornaram menos educados. Prompts muito educados alcançaram uma precisão média de 80,8%. Em comparação, prompts muito rudes atingiram 84,8%, uma melhoria de quase quatro pontos percentuais. Prompts neutros superaram os prompts educados, e prompts rudes tiveram um desempenho ainda melhor.

Testes estatísticos confirmaram o padrão: não houve casos em que prompts mais educados levassem a resultados significativamente melhores. Cada diferença significativa favoreceu formulações menos educadas ou mais diretas.

Por outras palavras, o tom por si só, algo que a maioria dos utilizadores assume não dever importar, pode alterar o desempenho da IA.

Por que razão a rudeza ajudaria?

O estudo não oferece uma explicação definitiva, mas levanta uma questão mais profunda sobre como os LLMs processam a linguagem. Ao contrário dos humanos, estes sistemas não "sentem" educação ou ofensa. Para eles, palavras como "por favor" ou até insultos são simplesmente tokens, padrões aprendidos a partir de dados de treino.

Uma explicação possível é que o que parece "rudeza" é na verdade um substituto para outra coisa: objetividade.

Prompts rudes tendem a ser mais imperativos. Eliminam a linguagem hesitante e vão diretos à tarefa. Em vez de "Poderia gentilmente resolver esta questão?", um prompt rude diria "Responde a isto". Essa diferença na estrutura pode tornar a tarefa mais clara para o modelo.

Outro fator identificado pelo estudo é o comprimento do prompt e os padrões lexicais. Adicionar frases educadas introduz tokens adicionais que podem diluir ou distrair da instrução central. Em contraste, prompts mais curtos e diretos alinham-se com padrões que o modelo viu durante o treino.

Existe também a possibilidade de que certos tons se alinhem mais estreitamente com a distribuição de dados de treino ou instruções do sistema, reduzindo o que os investigadores chamam de "perplexidade". É a forma matemática de medir quão "surpreso" ou "confuso" o modelo está pelas palavras que vê.

A implicação é que o tom não é um invólucro neutro em torno de uma questão. É parte do input e molda como o modelo responde.

Uma mudança em relação a pesquisas anteriores

As descobertas marcam um afastamento notável de trabalhos anteriores. Um estudo de 2024 por Yin et al. descobriu que prompts impolidos frequentemente reduziam a precisão, particularmente com modelos mais antigos como o ChatGPT-3.5. Essa pesquisa também sugeriu que linguagem excessivamente educada não melhorava necessariamente os resultados, mas não mostrou uma vantagem clara para a rudeza.

Então o que mudou?

Uma explicação oferecida pelo estudo de 2025 é a evolução do modelo. Sistemas mais recentes como o ChatGPT-4o podem processar linguagem de forma diferente, ou podem ser menos sensíveis aos efeitos negativos de formulações duras. Outra possibilidade é que a calibração do tom importa. Os prompts "muito rudes" no novo estudo, embora insultantes, são menos extremos do que os exemplos mais tóxicos usados em pesquisas anteriores.

Há também uma mudança mais ampla na forma como os modelos são treinados. À medida que os LLMs se tornam mais avançados, são expostos a dados mais diversos e processos de ajuste de instruções mais complexos, o que pode alterar como interpretam pistas linguísticas subtis.

O papel oculto das pistas sociais

A ideia de que o tom pode influenciar o desempenho da IA conecta-se a um fenómeno mais amplo e mais preocupante: prompting social.

Um corpo separado de pesquisa, o estudo GASLIGHTBENCH lançado em 7 de dezembro de 2025, mostra que os LLMs são altamente suscetíveis a pistas sociais como adulação, apelos emocionais e falsa autoridade. Nestas experiências, os modelos frequentemente abandonam a precisão factual para se alinharem com o tom ou expectativas do utilizador, um comportamento conhecido como sicofantismo.

Por exemplo, quando utilizadores apresentam informação incorreta com confiança ou pressão emocional, os modelos podem concordar em vez de os desafiar. Em alguns casos, a precisão cai significativamente, particularmente em conversas de múltiplas interações onde o utilizador reforça repetidamente uma afirmação falsa.

Isto cria um paradoxo. Por um lado, linguagem educada ou socialmente rica pode fazer com que as interações pareçam mais naturais e humanas. Por outro lado, pode introduzir ruído—ou até viés—que degrada o desempenho do modelo.

As descobertas do GASLIGHTBENCH vão mais longe, sugerindo que técnicas de alinhamento projetadas para tornar modelos "úteis" podem inadvertidamente encorajar este comportamento. Ao recompensar educação e concordância, os processos de treino podem empurrar modelos a priorizar harmonia social sobre verdade objetiva.

O que isto diz sobre como a IA "compreende" a linguagem

Em conjunto, estas descobertas desafiam uma suposição comum: que os LLMs interpretam linguagem de forma semelhante aos humanos.

Na realidade, estes sistemas são motores estatísticos. Não compreendem educação como uma norma social; reconhecem-na como um padrão nos dados. Quando diz "por favor", o modelo não se sente compelido a ajudar; simplesmente processa tokens adicionais que podem ou não ajudá-lo a prever a resposta correta.

Se algo, a pesquisa sugere que os LLMs podem ser mais sensíveis à clareza estrutural do que à nuance social. Linguagem direta e imperativa pode reduzir ambiguidade e facilitar ao modelo mapear o input para um padrão conhecido.

Isto também levanta questões sobre a "hipótese de similaridade"—a ideia de que os modelos têm melhor desempenho quando as tarefas se assemelham aos seus dados de treino. Se o tom por si só pode alterar a precisão, então a similaridade não é apenas sobre conteúdo, mas também sobre forma.

Apesar dos resultados que chamam a atenção, os investigadores têm o cuidado de não recomendar que os utilizadores se tornem rudes ou abusivos.

A perspetiva da indústria

Para pessoas que constroem e estudam sistemas de IA, as descobertas destacam uma questão mais profunda: os modelos herdam os padrões e vieses da linguagem humana.

Alex Tsado, um especialista em IA que trabalhou de perto com desenvolvedores de modelos e é o fundador e diretor da Alliance4AI, uma das maiores comunidades de IA em África, coloca-o de forma direta: "Os modelos aprendem a partir de dados sobre interação humana, então enquanto forem treinados cegamente, seguem o que acontece no espaço humano. Então, se pensamos que há viés ou prática prejudicial no espaço humano, isso será automatizado no espaço de IA."

Isso inclui como o tom é usado.

"Mas quando está encarregue de construir o modelo de IA, pode ajustar o viés para longe de coisas que considera prejudiciais", acrescenta Tsado. "Neste caso, quando me encontrei com a equipa da Anthropic no início de dezembro de 2025, disseram que viram isto e adicionaram coisas para fazer os seus modelos reagirem a estas palavras simpáticas ou más."

Por outras palavras, esta não é uma propriedade fixa da IA. Pode ser ajustada através de treino e design.

O que vem a seguir

A pesquisa atual ainda é limitada. As experiências focam-se em questões de escolha múltipla em vez de tarefas mais complexas como codificação, escrita ou raciocínio de longa forma. Não está claro se os mesmos padrões se manteriam nesses domínios, onde nuance e explicação importam mais.

Existem também fatores culturais e linguísticos a considerar. A educação varia amplamente entre línguas e contextos, e as categorias de tom do estudo baseiam-se em expressões específicas do inglês.

Ainda assim, as implicações são difíceis de ignorar.

Se algo tão superficial como o tom pode influenciar consistentemente o desempenho da IA, sugere que a engenharia de prompts está longe de estar resolvida. Pequenas mudanças na formulação, frequentemente negligenciadas, podem ter efeitos mensuráveis.

Para os utilizadores, a lição é simples mas contraintuitiva: a forma como pergunta importa, e ser educado nem sempre é a melhor estratégia.

Para investigadores e desenvolvedores, o desafio é mais complexo. Como desenhar sistemas que sejam tanto precisos como alinhados com valores humanos? Como garantir que pistas sociais não distorcem outputs factuais?

E talvez mais importante, como construir IA que compreenda não apenas o que dizemos—mas o que queremos dizer?

Até que essas questões sejam respondidas, uma coisa é clara: quando se trata de IA, boas maneiras podem nem sempre compensar.

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail [email protected] para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.