एक वायरल BridgeBench पोस्ट का दावा है कि Claude Opus 4.6 को nerf किया गया था। आलोचकों का कहना है कि डेटा तुलना त्रुटिपूर्ण और भ्रामक है। The post वायरल BridgeBeएक वायरल BridgeBench पोस्ट का दावा है कि Claude Opus 4.6 को nerf किया गया था। आलोचकों का कहना है कि डेटा तुलना त्रुटिपूर्ण और भ्रामक है। The post वायरल BridgeBe

वायरल BridgeBench पोस्ट में दावा, Claude Opus 4.6 ‘नर्फ़’ हुआ, आलोचकों ने बताया ये Bad Science

2026/04/13 21:13
4 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया [email protected] पर हमसे संपर्क करें

BridgeMind AI ने दावा किया है कि Anthropic के Claude Opus 4.6 को गुप्त रूप से डाउनग्रेड किया गया है, जब एक hallucination बेंचमार्क रीटेस्ट हुआ। यह वायरल पोस्ट अब गलत मेथडोलॉजी को लेकर भारी आलोचना का शिकार हो रही है।

इस दावे ने बड़ी बहस को जन्म दे दिया है कि क्या AI कंपनियां चुपचाप पेड मॉडल्स को डाउनग्रेड करके अपना खर्चा कम कर रही हैं।

BridgeMind ने hallucinations में 98% की तेज़ी का दावा किया

BridgeMind, जो कि BridgeBench कोडिंग बेंचमार्क के पीछे की टीम है, ने पोस्ट किया कि Claude Opus 4.6 उनकी hallucination लीडरबोर्ड में दूसरे स्थान से दसवें स्थान पर आ गया है। इसके accuracy स्कोर में भी गिरावट आई, 83.3% से घटकर 68.3% हो गया।

पोस्ट में इसे “reduced reasoning levels” का सबूत बताते हुए पेश किया गया। लेकिन, अगर आंकड़ों को गहराई से देखें तो एक अलग सच्चाई सामने आती है।

आलोचकों का कहना है कि तुलना पूरी तरह से गलत है

कंप्यूटर साइंटिस्ट Paul Calcraft के अनुसार, यह दावा “incredibly bad science” है और उन्होंने मेथडोलॉजी में गंभीर समस्या बताई।

पहला हाई स्कोर सिर्फ छह बेंचमार्क tasks से आया था। अब नए रीटेस्ट में बेंचमार्क को 30 tasks तक बढ़ा दिया गया।

छह ओवरलैपिंग tasks में, प्रदर्शन लगभग एक जैसा ही रहा, सिर्फ 87.6% से घटकर 85.4% रह गया।

ये छोटा सा फर्क भी सिर्फ एक extra fabrication के कारण आया, वो भी एक ही task में। क्योंकि कोई भी टेस्ट दोहराया नहीं गया, इसलिए ये फर्क AI मॉडल्स में सामान्य statistical variance के दायरे में आता है।

Large language models deterministic नहीं होते, यानी छोटी सी sample में एक खराब आउटपुट भी पूरी रिपोर्ट को काफी हद तक बदल सकता है।

बड़ी नाराज़गियां चर्चा को हवा दे रही हैं

फिर भी, इस पोस्ट ने लोगों की नाराजगी को छू लिया। फरवरी 2026 में लॉन्च होने के बाद से, Claude Opus 4.6 को लगातार क्वालिटी में गिरावट को लेकर शिकायतों का सामना करना पड़ा है।

डेवलपर्स ने रिपोर्ट किया है कि पीक आवर्स के दौरान रिस्पॉन्स छोटे होते हैं, इंस्ट्रक्शन फॉलो करना कमजोर हो जाता है, और रीजनिंग की गहराई भी कम हो गई है।

इसका कुछ कारण जानबूझकर किए गए प्रोडक्ट बदलाव भी हैं। Anthropic ने adaptive thinking controls पेश किए जिससे मॉडल खुद ही अपनी रीजनिंग बजट को एडजस्ट कर सकता है। बाद में इसका डिफॉल्ट लेवल ‘मीडियम’ सेट किया गया, जिसमें efficiency को maximum गहराई से ऊपर रखा गया।

एक स्वतंत्र एनालिसिस में 6,800 से ज्यादा Claude Code सेशन्स का डेटा देखने पर सामने आया कि फरवरी के आखिर तक रीजनिंग गहराई लगभग 67% गिर चुकी थी।

कोड एडिट करने से पहले मॉडल का फाइल-रीड अनुपात 6.6 से घटकर 2.0 हो गया। इसका मतलब है कि मॉडल ने कई बार कोड को ठीक करने की कोशिश की, जबकि उसने उसे सही से समीक्षा भी नहीं की थी।

AI यूज़र्स के लिए इसका क्या मतलब है

यह AI इंडस्ट्री के भीतर बढ़ती तनाव को दर्शाता है। कंपनियां लॉन्च के बाद मॉडल्स को कॉस्ट और स्केल के लिए ऑप्टिमाइज़ करती हैं, जबकि हेवी यूज़र्स लगातार बेस्ट परफॉर्मेंस की उम्मीद करते हैं। इन प्राथमिकताओं के बीच अंतर भरोसे को कम करता है।

मौजूदा सबूतों के आधार पर, BridgeBench डेटा जानबूझकर डाउंग्रेड किए जाने को साबित नहीं करता। बेंचमार्क तुलना एक जैसी नहीं थी, और जहां डेटा ओवरलैप हो रहा था, वहां रिजल्ट्स लगभग एक जैसे थे।

हालांकि, यूज़र्स की निराशा पूरी तरह ग़लत भी नहीं है। adaptive compute controls और सर्विस-लेवल ऑप्टिमाइजेशन की वजह से अब Claude Opus 4.6 का व्यवहार वाकई बदल गया है। उन डेवलपर्स के लिए, जो लगातार रिजल्ट्स पर डिपेंड रहते हैं, ये बदलाव मायने रखते हैं।

Anthropic ने 13 अप्रैल तक BridgeBench के खास आरोपों पर कोई पब्लिक स्टेटमेंट जारी नहीं किया है।

The post वायरल BridgeBench पोस्ट में दावा, Claude Opus 4.6 ‘नर्फ़’ हुआ, आलोचकों ने बताया ये Bad Science appeared first on BeInCrypto Hindi.

मार्केट अवसर
4 लोगो
4 मूल्य(4)
$0.013169
$0.013169$0.013169
+0.83%
USD
4 (4) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए [email protected] से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

डॉगकॉइन की कीमत संचय क्षेत्र में बनी हुई है क्योंकि ओपन इंटरेस्ट ठंडा हो रहा है: विवरण

डॉगकॉइन की कीमत संचय क्षेत्र में बनी हुई है क्योंकि ओपन इंटरेस्ट ठंडा हो रहा है: विवरण

मुख्य जानकारी: Dogecoin की कीमत एक प्रमुख संचय क्षेत्र में बनी हुई है क्योंकि कई अल्पकालिक और दीर्घकालिक संकेत संरेखित होने लगे हैं। नवीनतम चार्ट्स संकेत देते हैं कि DOGE
शेयर करें
Themarketperiodical2026/04/13 22:23
कैसे MiCA ने Banks और German Institutions के लिए रास्ता खोला

कैसे MiCA ने Banks और German Institutions के लिए रास्ता खोला

Germany के सबसे बड़े financial institutions अब MiCA के तहत क्रिप्टो स्पेस में आ चुके हैं, और अपनी बड़ी customer base को ट्रेडिंग और कस्टडी सर्विस दे रहे हैं। सिर
शेयर करें
Beincrypto HI2026/04/13 22:00
XRP ऑन-चेन वॉल्यूम में अभी 26% की छलांग लगी। यहां जानें कीमत पर इसका प्रभाव

XRP ऑन-चेन वॉल्यूम में अभी 26% की छलांग लगी। यहां जानें कीमत पर इसका प्रभाव

XRP बाजार में एक सूक्ष्म लेकिन महत्वपूर्ण विचलन सामने आ रहा है, और यह गंभीर ध्यान आकर्षित करना शुरू कर रहा है। जबकि मूल्य कार्रवाई दबाव में बनी हुई है और
शेयर करें
Timestabloid2026/04/13 22:05

24/7 लाइव न्यूज़

अधिक

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!