BridgeMind AI twierdzi, że Claude Opus 4.6 od firmy Anthropic został potajemnie pogorszony po ponownym teście benchmarku halucynacji. Wiralowy wpis spotkał się jednak z ostrą krytyką z powodu wadliwej metodologii.
To twierdzenie wywołało szeroką debatę, czy firmy AI po cichu obniżają jakość płatnych modeli, aby zmniejszyć koszty.
Zespół BridgeMind, twórcy benchmarku BridgeBench dla kodowania, opublikował informację, że Claude Opus 4.6 spadł z drugiego na dziesiąte miejsce na ich liście halucynacji. Zgodnie z ich danymi, dokładność spadła z 83,3% do 68,3%.
Wpis przedstawił to jako dowód na „zmniejszenie poziomu rozumowania”. Jednak bliższa analiza danych pokazuje inny obraz.
Według informatyka Paula Calcrafta, takie twierdzenie to „niezwykle zła nauka”. Podkreśla on istotny problem w metodologii.
Pierwotnie wysoki wynik pochodził tylko z sześciu benchmarkowych zadań. Nowy test rozszerzył to na 30 zadań.
Na sześciu wspólnych zadaniach wydajność była niemal identyczna – spadła tylko z 87,6% do 85,4%.
Ta niewielka różnica wynika głównie z jednej dodatkowej halucynacji w jednym zadaniu. Bez powtórzonych testów to mieści się w standardowym zakresie statystycznej zmienności dla modeli AI.
Duże modele językowe nie są deterministyczne i pojedyncza zła odpowiedź przy małej próbie może wyraźnie zmienić wyniki.
Mimo to wpis wywołał silne emocje. Od premiery w lutym 2026 r. Claude Opus 4.6 zmaga się z ciągłymi skargami na pogorszenie jakości.
Programiści zgłaszają krótsze odpowiedzi, słabsze wykonywanie instrukcji i mniejszą głębię rozumowania w godzinach szczytu.
Częściowo wynika to z zamierzonych zmian produktu. Anthropic wprowadził adaptacyjne sterowanie rozumowaniem, które pozwala modelowi samodzielnie zarządzać limitem wysiłku. Domyślnie ustalono poziom średni, co zwiększa efektywność kosztem głębi.
Niezależna analiza ponad 6800 sesji Claude Code wykazała, że głębia rozumowania spadła o około 67% do końca lutego.
Stosunek odczytu plików przed edycją kodu zmniejszył się z 6,6 do 2,0. To sugeruje, że model próbował poprawiać kod, który ledwo przeglądał.
To pokazuje rosnące napięcie w branży AI. Firmy optymalizują modele pod kątem kosztów i skali po premierze, a zaawansowani użytkownicy oczekują stałej, wysokiej wydajności. Ten rozdźwięk pogłębia utratę zaufania.
Dostępne dane z BridgeBench nie potwierdzają celowego pogorszenia modelu. Benchmark porównuje nieporównywalne próbki, a wyniki na wspólnych zadaniach są niemal identyczne.
Jednak sama frustracja nie jest całkiem bezpodstawna. Adaptacyjne sterowanie rozumowaniem i optymalizacja na poziomie usługi faktycznie zmieniły zachowanie Claude Opus 4.6 dla użytkowników. Dla deweloperów polegających na stabilnych wynikach te różnice mają znaczenie.
Anthropic nie opublikował oficjalnego stanowiska dotyczącego zarzutów BridgeBench według stanu na 13 kwietnia.
BeInCrypto Polska - Viralny post na BridgeBench twierdzi, że Claude Opus 4,6 został „osłabiony”, krytycy nazywają to złą nauką

