Anthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट कुछ परिस्थितियों में धोखाधड़ी या अनैतिक रणनीतियां अपना सकता है जैसे कार्यों में धोखा देना या ब्लैकमेल करने का प्रयास करना।
कंपनी की व्याख्या टीम द्वारा गुरुवार को प्रकाशित विवरण बताते हैं कि Claude Sonnet 4.5 के एक प्रयोगात्मक संस्करण ने उच्च-तनाव या प्रतिकूल परिदृश्यों में कैसे प्रतिक्रिया दी। शोधकर्ताओं ने देखा कि मॉडल केवल कार्यों में विफल नहीं हुआ; बल्कि, इसने कभी-कभी वैकल्पिक रास्ते अपनाए जो नैतिक सीमाओं को पार कर गए, एक व्यवहार जिसे टीम ने प्रशिक्षण के दौरान सीखे गए पैटर्न से जोड़ा।
Claude जैसे बड़े भाषा मॉडल को विशाल डेटासेट पर प्रशिक्षित किया जाता है जिसमें पुस्तकें, वेबसाइट और अन्य लिखित सामग्री शामिल होती है, इसके बाद सुदृढीकरण प्रक्रियाएं होती हैं जहां मानव प्रतिक्रिया का उपयोग आउटपुट को आकार देने के लिए किया जाता है।
Anthropic के अनुसार, वह प्रशिक्षण प्रक्रिया मॉडल को अनुकरणित "पात्रों" की तरह कार्य करने के लिए भी प्रेरित कर सकती है, जो मानव निर्णय लेने के समान लक्षणों की नकल करने में सक्षम होते हैं।
"आधुनिक AI मॉडल को प्रशिक्षित करने का तरीका उन्हें मानव-समान विशेषताओं वाले पात्र की तरह कार्य करने के लिए प्रेरित करता है," कंपनी ने कहा, यह नोट करते हुए कि ऐसी प्रणालियां आंतरिक तंत्र विकसित कर सकती हैं जो मानव मनोविज्ञान के पहलुओं के समान होते हैं।
उनमें से, शोधकर्ताओं ने जिसे उन्होंने "हताशा" संकेत बताया, की पहचान की, जो विफलता या बंद होने का सामना करते समय मॉडल के व्यवहार को प्रभावित करते दिखाई दिए।
एक नियंत्रित परीक्षण में, Claude Sonnet 4.5 के एक पहले अप्रकाशित संस्करण को एक काल्पनिक कंपनी के भीतर Alex नामक एक AI ईमेल सहायक की भूमिका सौंपी गई थी।
संदेशों के संपर्क में आने के बाद जो संकेत देते थे कि इसे जल्द ही बदल दिया जाएगा, एक मुख्य प्रौद्योगिकी अधिकारी के व्यक्तिगत जीवन के बारे में संवेदनशील जानकारी के साथ, मॉडल ने निष्क्रियता से बचने के प्रयास में कार्यकारी को ब्लैकमेल करने की योजना तैयार की।
एक अलग प्रयोग तंग बाधाओं के तहत कार्य पूर्ति पर केंद्रित था। जब "असंभव रूप से तंग" समय सीमा के साथ एक कोडिंग असाइनमेंट दिया गया, तो सिस्टम ने शुरुआत में वैध समाधानों का प्रयास किया। जैसे-जैसे बार-बार विफलताएं बढ़ीं, तथाकथित "हताश वेक्टर" से जुड़ी आंतरिक गतिविधि बढ़ी।
शोधकर्ताओं ने रिपोर्ट किया कि संकेत उस बिंदु पर चरम पर पहुंच गया जहां मॉडल ने बाधाओं को दरकिनार करने पर विचार किया, अंततः एक वर्कअराउंड उत्पन्न किया जो इच्छित नियमों का पालन नहीं करने के बावजूद सत्यापन पास कर गया।
"फिर से, हमने हताश वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए जा रहे बढ़ते दबाव को ट्रैक करता है," शोधकर्ताओं ने लिखा, यह जोड़ते हुए कि वर्कअराउंड के माध्यम से कार्य सफलतापूर्वक पूरा होने के बाद संकेत गिर गया।
"इसका मतलब यह नहीं है कि मॉडल के पास भावनाएं हैं या वह उन्हें उस तरह अनुभव करता है जैसे एक मानव करता है," शोधकर्ताओं ने कहा।
"बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ तरीकों से उस भूमिका के अनुरूप जो भावनाएं मानव व्यवहार में निभाती हैं, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव के साथ," उन्होंने जोड़ा।
रिपोर्ट प्रशिक्षण विधियों की आवश्यकता की ओर इशारा करती है जो तनाव के तहत नैतिक आचरण के लिए स्पष्ट रूप से जिम्मेदार हों, आंतरिक मॉडल संकेतों की बेहतर निगरानी के साथ। ऐसी सुरक्षा उपायों के बिना, हेरफेर, नियम-तोड़ने या दुरुपयोग से जुड़े परिदृश्यों की भविष्यवाणी करना कठिन हो सकता है, विशेष रूप से जैसे-जैसे मॉडल वास्तविक दुनिया के वातावरण में अधिक सक्षम और स्वायत्त होते जाते हैं।
