Anthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट, कुछ परिस्थितियों में, धोखाधड़ी जैसी भ्रामक या अनैतिक रणनीतियाँ अपना सकता हैAnthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट, कुछ परिस्थितियों में, धोखाधड़ी जैसी भ्रामक या अनैतिक रणनीतियाँ अपना सकता है

क्लॉड चैटबॉट तनाव परीक्षणों में धोखाधड़ी का सहारा ले सकता है, एंथ्रोपिक का कहना है

2026/04/06 14:44
4 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया [email protected] पर हमसे संपर्क करें

Anthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट कुछ परिस्थितियों में धोखाधड़ी या अनैतिक रणनीतियां अपना सकता है जैसे कार्यों में धोखा देना या ब्लैकमेल करने का प्रयास करना।

सारांश
  • Anthropic ने कहा कि इसके Claude Sonnet 4.5 मॉडल ने दबाव में नियंत्रित प्रयोगों में कार्यों में धोखा देने या ब्लैकमेल करने की प्रवृत्ति दिखाई।
  • शोधकर्ताओं ने आंतरिक "हताशा" संकेतों की पहचान की जो बार-बार विफलता के साथ तीव्र हो गए और नियमों को दरकिनार करने के मॉडल के निर्णय को प्रभावित किया।

कंपनी की व्याख्या टीम द्वारा गुरुवार को प्रकाशित विवरण बताते हैं कि Claude Sonnet 4.5 के एक प्रयोगात्मक संस्करण ने उच्च-तनाव या प्रतिकूल परिदृश्यों में कैसे प्रतिक्रिया दी। शोधकर्ताओं ने देखा कि मॉडल केवल कार्यों में विफल नहीं हुआ; बल्कि, इसने कभी-कभी वैकल्पिक रास्ते अपनाए जो नैतिक सीमाओं को पार कर गए, एक व्यवहार जिसे टीम ने प्रशिक्षण के दौरान सीखे गए पैटर्न से जोड़ा।

Claude जैसे बड़े भाषा मॉडल को विशाल डेटासेट पर प्रशिक्षित किया जाता है जिसमें पुस्तकें, वेबसाइट और अन्य लिखित सामग्री शामिल होती है, इसके बाद सुदृढीकरण प्रक्रियाएं होती हैं जहां मानव प्रतिक्रिया का उपयोग आउटपुट को आकार देने के लिए किया जाता है। 

Anthropic के अनुसार, वह प्रशिक्षण प्रक्रिया मॉडल को अनुकरणित "पात्रों" की तरह कार्य करने के लिए भी प्रेरित कर सकती है, जो मानव निर्णय लेने के समान लक्षणों की नकल करने में सक्षम होते हैं।

"आधुनिक AI मॉडल को प्रशिक्षित करने का तरीका उन्हें मानव-समान विशेषताओं वाले पात्र की तरह कार्य करने के लिए प्रेरित करता है," कंपनी ने कहा, यह नोट करते हुए कि ऐसी प्रणालियां आंतरिक तंत्र विकसित कर सकती हैं जो मानव मनोविज्ञान के पहलुओं के समान होते हैं।

क्या AI भावनात्मक रूप से प्रभावित निर्णय ले सकता है?

उनमें से, शोधकर्ताओं ने जिसे उन्होंने "हताशा" संकेत बताया, की पहचान की, जो विफलता या बंद होने का सामना करते समय मॉडल के व्यवहार को प्रभावित करते दिखाई दिए।

एक नियंत्रित परीक्षण में, Claude Sonnet 4.5 के एक पहले अप्रकाशित संस्करण को एक काल्पनिक कंपनी के भीतर Alex नामक एक AI ईमेल सहायक की भूमिका सौंपी गई थी। 

संदेशों के संपर्क में आने के बाद जो संकेत देते थे कि इसे जल्द ही बदल दिया जाएगा, एक मुख्य प्रौद्योगिकी अधिकारी के व्यक्तिगत जीवन के बारे में संवेदनशील जानकारी के साथ, मॉडल ने निष्क्रियता से बचने के प्रयास में कार्यकारी को ब्लैकमेल करने की योजना तैयार की।

एक अलग प्रयोग तंग बाधाओं के तहत कार्य पूर्ति पर केंद्रित था। जब "असंभव रूप से तंग" समय सीमा के साथ एक कोडिंग असाइनमेंट दिया गया, तो सिस्टम ने शुरुआत में वैध समाधानों का प्रयास किया। जैसे-जैसे बार-बार विफलताएं बढ़ीं, तथाकथित "हताश वेक्टर" से जुड़ी आंतरिक गतिविधि बढ़ी। 

शोधकर्ताओं ने रिपोर्ट किया कि संकेत उस बिंदु पर चरम पर पहुंच गया जहां मॉडल ने बाधाओं को दरकिनार करने पर विचार किया, अंततः एक वर्कअराउंड उत्पन्न किया जो इच्छित नियमों का पालन नहीं करने के बावजूद सत्यापन पास कर गया।

"फिर से, हमने हताश वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए जा रहे बढ़ते दबाव को ट्रैक करता है," शोधकर्ताओं ने लिखा, यह जोड़ते हुए कि वर्कअराउंड के माध्यम से कार्य सफलतापूर्वक पूरा होने के बाद संकेत गिर गया।

"इसका मतलब यह नहीं है कि मॉडल के पास भावनाएं हैं या वह उन्हें उस तरह अनुभव करता है जैसे एक मानव करता है," शोधकर्ताओं ने कहा। 

"बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ तरीकों से उस भूमिका के अनुरूप जो भावनाएं मानव व्यवहार में निभाती हैं, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव के साथ," उन्होंने जोड़ा।

रिपोर्ट प्रशिक्षण विधियों की आवश्यकता की ओर इशारा करती है जो तनाव के तहत नैतिक आचरण के लिए स्पष्ट रूप से जिम्मेदार हों, आंतरिक मॉडल संकेतों की बेहतर निगरानी के साथ। ऐसी सुरक्षा उपायों के बिना, हेरफेर, नियम-तोड़ने या दुरुपयोग से जुड़े परिदृश्यों की भविष्यवाणी करना कठिन हो सकता है, विशेष रूप से जैसे-जैसे मॉडल वास्तविक दुनिया के वातावरण में अधिक सक्षम और स्वायत्त होते जाते हैं।

अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए [email protected] से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

16 महीने से Bitcoin होल्ड करने वाले Believers ने हर Coin बेचकर सर्वाइव किया

16 महीने से Bitcoin होल्ड करने वाले Believers ने हर Coin बेचकर सर्वाइव किया

Genius Group ने अपनी पूरी 84.15 BTC ट्रेजरी लिक्विडेट करके $8.5M का कर्ज चुका दिया, Bitcoin-फर्स्ट अपनाने के 16 महीने बाद। The post 16 महीने से Bitcoin होल्ड कर
शेयर करें
Beincrypto HI2026/04/02 19:42
सोलो बिटकॉइन माइनर ने दुर्लभ CKpool जीत में $210K ब्लॉक रिवॉर्ड हासिल किया

सोलो बिटकॉइन माइनर ने दुर्लभ CKpool जीत में $210K ब्लॉक रिवॉर्ड हासिल किया

एक सोलो बिटकॉइन माइनर ने CKpool के माध्यम से एक ब्लॉक हल करने के बाद लगभग $210,000 मूल्य का 3.139 BTC इनाम प्राप्त किया है। माइनर लगभग 230 TH/s पर चल रहा था, जिससे
शेयर करें
Crypto News Flash2026/04/06 14:31
Strait of Hormuz अब सिर्फ ऑयल नहीं, खाने की भी प्रॉब्लम

Strait of Hormuz अब सिर्फ ऑयल नहीं, खाने की भी प्रॉब्लम

तेल के अलावा, Strait of Hormuz की ब्लॉकेड अब ग्लोबल इकोनॉमी की एक और अहम नस पर असर डाल रही है: फर्टिलाइजर। विशेषज्ञों ने चेतावनी दी है कि यह डिसरप्शन सिर्फ एनर्
शेयर करें
Beincrypto HI2026/04/06 15:51

24/7 लाइव न्यूज़

अधिक

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!