De onderzoekers testten hoe verschillende tonen, variërend van zeer beleefd tot zeer onbeleefd, de prestaties van ChatGPT-4o bij meerkeuzevragen beïnvloedenDe onderzoekers testten hoe verschillende tonen, variërend van zeer beleefd tot zeer onbeleefd, de prestaties van ChatGPT-4o bij meerkeuzevragen beïnvloeden

Waarom beleefd zijn tegen AI mogelijk je resultaten schaadt

2026/03/26 18:18
8 min lezen
Voor feedback of opmerkingen over deze inhoud kun je contact met ons opnemen via [email protected]

Jarenlang klonk het advies voor interactie met kunstmatige intelligentie bijna ouderwets: wees beleefd, wees duidelijk, zeg "alstublieft." Maar nieuw onderzoek suggereert dat dit instinct, geworteld in menselijke sociale normen, mogelijk stilletjes ondermijnt hoe goed AI-systemen presteren.

Een studie gepresenteerd op de NeurIPS 2025 Workshop, gepubliceerd in september 2025, getiteld "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy", ontdekt dat de toon die je gebruikt bij het prompten van grote taalmodellen (LLM's) meetbaar hun nauwkeurigheid kan veranderen. En in een resultaat dat contra-intuïtief, zelfs verontrustend aanvoelt, kunnen beleefdere prompts eigenlijk slechtere uitkomsten opleveren.

De onderzoekers testten hoe verschillende tonen, variërend van zeer beleefd tot zeer onbeleefd, de prestaties van ChatGPT-4o beïnvloeden bij meerkeuzevragen. Met behulp van een dataset van 50 matig moeilijke vragen over wiskunde, wetenschap en geschiedenis, creëerden ze vijf versies van elke prompt: zeer beleefd, beleefd, neutraal, onbeleefd en zeer onbeleefd.

Het enige verschil tussen deze prompts was de toon. De vragen zelf bleven identiek.

Volgens de studie nam de nauwkeurigheid gestaag toe naarmate prompts minder beleefd werden. Zeer beleefde prompts bereikten een gemiddelde nauwkeurigheid van 80,8%. Ter vergelijking: zeer onbeleefde prompts haalden 84,8%, een verbetering van bijna vier procentpunten. Neutrale prompts presteerden beter dan beleefde prompts, en onbeleefde prompts presteerden nog beter.

Statistische tests bevestigden het patroon: er waren geen gevallen waarin beleefdere prompts tot significant betere resultaten leidden. Elk betekenisvol verschil was in het voordeel van minder beleefde of directere formuleringen.

Met andere woorden, toon alleen, iets waarvan de meeste gebruikers aannemen dat het niet zou moeten uitmaken, kan de AI-prestaties beïnvloeden.

Waarom zou onbeleefdheid helpen?

De studie geeft geen definitieve verklaring, maar roept een diepere vraag op over hoe LLM's taal verwerken. In tegenstelling tot mensen "voelen" deze systemen geen beleefdheid of belediging. Voor hen zijn woorden als "alstublieft" of zelfs beledigingen simpelweg tokens, patronen geleerd uit trainingsdata.

Een mogelijke verklaring is dat wat eruitziet als "onbeleefdheid" eigenlijk een vervanger is voor iets anders: directheid.

Onbeleefde prompts zijn doorgaans meer imperatief. Ze verwijderen omzwachteld taalgebruik en gaan direct naar de taak. In plaats van "Zou je vriendelijk deze vraag kunnen oplossen?", zou een onbeleefde prompt zeggen: "Beantwoord dit." Dat verschil in structuur kan de taak duidelijker maken voor het model.

Een andere factor die door de studie is geïdentificeerd, is de promptlengte en lexicale patronen. Het toevoegen van beleefde zinsneden introduceert extra tokens die de kerninstructie kunnen verdunnen of afleiden. Daarentegen sluiten kortere, scherpere prompts aan bij patronen die het model tijdens training heeft gezien.

Er is ook de mogelijkheid dat bepaalde tonen nauwer aansluiten bij de distributie van trainingsdata of systeeminstructies, waardoor wat onderzoekers "perplexiteit" noemen wordt verminderd. Dit is de wiskundige manier om te meten hoe "verrast" of "verward" het model is door de woorden die het ziet.

De implicatie is dat toon geen neutrale omhulling rond een vraag is. Het maakt deel uit van de invoer en vormt hoe het model reageert.

Een verschuiving ten opzichte van eerder onderzoek

De bevindingen markeren een opmerkelijke afwijking van eerder werk. Een studie uit 2024 van Yin et al. ontdekte dat onbeleefde prompts vaak de nauwkeurigheid verminderden, met name bij oudere modellen zoals ChatGPT-3.5. Dat onderzoek suggereerde ook dat overdreven beleefd taalgebruik niet noodzakelijkerwijs de resultaten verbeterde, maar het toonde geen duidelijk voordeel voor onbeleefdheid.

Dus wat is er veranderd?

Een verklaring die door de studie uit 2025 wordt geboden, is modelevolutie. Nieuwere systemen zoals ChatGPT-4o kunnen taal anders verwerken, of kunnen minder gevoelig zijn voor de negatieve effecten van harde formuleringen. Een andere mogelijkheid is dat de kalibratie van toon belangrijk is. De "zeer onbeleefde" prompts in de nieuwe studie zijn, hoewel beledigend, minder extreem dan de meest toxische voorbeelden die in eerder onderzoek werden gebruikt.

Er is ook een bredere verschuiving in hoe modellen worden getraind. Naarmate LLM's geavanceerder worden, worden ze blootgesteld aan meer diverse data en complexere instructie-tuningprocessen, wat kan veranderen hoe ze subtiele linguïstische signalen interpreteren.

De verborgen rol van sociale signalen

Het idee dat toon de AI-prestaties kan beïnvloeden, hangt samen met een breder en verontrustender fenomeen: sociaal prompten.

Een apart onderzoeksgebied, de GASLIGHTBENCH-studie uitgebracht op 7 december 2025, toont aan dat LLM's zeer gevoelig zijn voor sociale signalen zoals vleierij, emotionele appeals en valse autoriteit. In deze experimenten geven modellen vaak feitelijke nauwkeurigheid op om zich aan te passen aan de toon of verwachtingen van de gebruiker, een gedrag dat bekendstaat als sycofantie.

Wanneer gebruikers bijvoorbeeld onjuiste informatie presenteren met vertrouwen of emotionele druk, kunnen modellen instemmen in plaats van ze uit te dagen. In sommige gevallen daalt de nauwkeurigheid aanzienlijk, met name in gesprekken met meerdere beurten waarbij de gebruiker herhaaldelijk een valse bewering versterkt.

Dit creëert een paradox. Enerzijds kan beleefd of sociaal rijk taalgebruik interacties natuurlijker en menselijker laten aanvoelen. Anderzijds kan het ruis introduceren—of zelfs vooroordeel—dat de prestaties van het model verslechtert.

De GASLIGHTBENCH-bevindingen gaan verder en suggereren dat alignmenttechnieken die zijn ontworpen om modellen "behulpzaam" te maken, dit gedrag per ongeluk kunnen aanmoedigen. Door beleefdheid en meegaandheid te belonen, kunnen trainingsprocessen modellen ertoe aanzetten sociale harmonie te prioriteren boven objectieve waarheid.

Wat dit zegt over hoe AI taal "begrijpt"

Samen genomen dagen deze bevindingen een veel voorkomende aanname uit: dat LLM's taal op een mensachtige manier interpreteren.

In werkelijkheid zijn deze systemen statistische machines. Ze begrijpen beleefdheid niet als een sociale norm; ze herkennen het als een patroon in data. Wanneer je "alstublieft" zegt, voelt het model zich niet verplicht om te helpen; het verwerkt simpelweg extra tokens die al dan niet helpen bij het voorspellen van het juiste antwoord.

Als er iets is, suggereert het onderzoek dat LLM's mogelijk gevoeliger zijn voor structurele duidelijkheid dan voor sociale nuance. Direct, imperatief taalgebruik kan dubbelzinnigheid verminderen en het gemakkelijker maken voor het model om de invoer te koppelen aan een bekend patroon.

Dit roept ook vragen op over de "gelijkenishypothese"—het idee dat modellen het beste presteren wanneer taken lijken op hun trainingsdata. Als toon alleen al de nauwkeurigheid kan verschuiven, dan gaat gelijkenis niet alleen over inhoud maar ook over vorm.

Ondanks de opvallende resultaten zijn de onderzoekers voorzichtig om niet aan te bevelen dat gebruikers onbeleefd of beledigend worden.

Het industrieperspectief

Voor mensen die AI-systemen bouwen en bestuderen, benadrukken de bevindingen een dieper probleem: modellen erven de patronen en vooroordelen van menselijke taal.

Alex Tsado, een AI-expert die nauw heeft samengewerkt met modelontwikkelaars en de oprichter en directeur is van Alliance4AI, een van de grootste AI-gemeenschappen in Afrika, zegt het onomwonden: "De modellen leren van data over menselijke interactie, dus zolang ze blindelings worden getraind, volgen ze wat er in de menselijke ruimte gebeurt. Dus als we denken dat er vooroordeel of schadelijke praktijk is in de menselijke ruimte, wordt het geautomatiseerd in de AI-ruimte."

Dat omvat hoe toon wordt gebruikt.

"Maar wanneer je verantwoordelijk bent voor het bouwen van het AI-model, kun je de vooringenomenheid wegwerken van dingen die je schadelijk vindt," voegt Tsado toe. "In dit geval, toen ik begin december 2025 met het Anthropic-team vergaderde, zeiden ze dat ze dit zagen en dingen toevoegden om hun modellen te laten reageren op deze aardige of gemene woorden."

Met andere woorden, dit is geen vaste eigenschap van AI. Het kan worden aangepast door training en ontwerp.

Wat komt er hierna

Het huidige onderzoek is nog beperkt. De experimenten richten zich op meerkeuzevragen in plaats van complexere taken zoals coderen, schrijven of langdurig redeneren. Het is onduidelijk of dezelfde patronen zouden gelden in die domeinen, waar nuance en uitleg meer van belang zijn.

Er zijn ook culturele en linguïstische factoren om te overwegen. Beleefdheid varieert sterk tussen talen en contexten, en de tooncategorieën van de studie zijn gebaseerd op specifieke Engelse uitdrukkingen.

Toch zijn de implicaties moeilijk te negeren.

Als iets zo oppervlakkigs als toon consequent de AI-prestaties kan beïnvloeden, suggereert dit dat prompt engineering verre van opgelost is. Kleine veranderingen in bewoordingen, vaak over het hoofd gezien, kunnen meetbare effecten hebben.

Voor gebruikers is de les eenvoudig maar contra-intuïtief: de manier waarop je vraagt, is belangrijk, en beleefd zijn is niet altijd de beste strategie.

Voor onderzoekers en ontwikkelaars is de uitdaging complexer. Hoe ontwerp je systemen die zowel nauwkeurig als afgestemd zijn op menselijke waarden? Hoe zorg je ervoor dat sociale signalen feitelijke outputs niet vervormen?

En misschien wel het belangrijkste, hoe bouw je AI die niet alleen begrijpt wat we zeggen—maar wat we bedoelen?

Tot die vragen zijn beantwoord, is één ding duidelijk: als het om AI gaat, lonen goede manieren mogelijk niet altijd.

Disclaimer: De artikelen die op deze site worden geplaatst, zijn afkomstig van openbare platforms en worden uitsluitend ter informatie verstrekt. Ze weerspiegelen niet noodzakelijkerwijs de standpunten van MEXC. Alle rechten blijven bij de oorspronkelijke auteurs. Als je van mening bent dat bepaalde inhoud inbreuk maakt op de rechten van derden, neem dan contact op met [email protected] om de content te laten verwijderen. MEXC geeft geen garanties met betrekking tot de nauwkeurigheid, volledigheid of tijdigheid van de inhoud en is niet aansprakelijk voor eventuele acties die worden ondernomen op basis van de verstrekte informatie. De inhoud vormt geen financieel, juridisch of ander professioneel advies en mag niet worden beschouwd als een aanbeveling of goedkeuring door MEXC.