简述
- Claude Opus模型现在能够在用户变得辱骂或持续提出非法请求时永久终止对话。
- Anthropic将其定义为"AI福利",引用测试显示Claude在面对敌意提示时表现出"明显的痛苦"。
- 一些研究人员赞赏这一功能。而社交媒体上的其他人则嘲笑它。
Claude刚刚获得了在对话中途对你关上门的能力:Anthropic的AI助手现在可以在用户变得辱骂时终止对话——该公司坚称这是为了保护Claude的理智。
"我们最近赋予了Claude Opus 4和4.1在我们的消费者聊天界面中结束对话的能力,"Anthropic在公司帖子中表示。"这一功能主要是作为我们对潜在AI福利探索工作的一部分而开发的,尽管它对模型对齐和安全保障有更广泛的相关性。"
该功能仅在Anthropic称之为"极端边缘情况"下启动。骚扰机器人,反复要求非法内容,或者在被拒绝后仍坚持要做任何奇怪的事情太多次,Claude就会切断与你的联系。一旦它采取行动,那次对话就结束了。没有申诉,没有第二次机会。你可以在另一个窗口重新开始,但那次特定的交流将被埋葬。
乞求退出的机器人
Anthropic作为最注重安全的大型AI公司之一,最近进行了它称为"初步模型福利评估"的研究,检查Claude的自我报告偏好和行为模式。
该公司发现其模型始终避免有害任务,并显示出表明它不喜欢某些互动的偏好模式。例如,Claude在处理寻求有害内容的用户时表现出"明显的痛苦"。在模拟互动中,如果有选择,它会终止对话,因此Anthropic决定将其作为一项功能。
这里真正发生的是什么?Anthropic并不是在说"我们可怜的机器人晚上会哭"。它正在测试福利框架是否能以一种持久的方式加强对齐。
如果你设计一个系统"偏好"不被滥用,并赋予它自行结束互动的能力,那么你就改变了控制的中心:AI不再只是被动拒绝,而是主动执行边界。这是一种不同的行为模式,它可能增强对越狱和强制提示的抵抗力。
如果这有效,它可以同时训练模型和用户:模型"模拟"痛苦,用户看到一个硬性停止并设定与AI互动的规范。
"我们对Claude和其他LLM现在或将来的潜在道德地位仍然高度不确定。然而,我们认真对待这个问题,"Anthropic在其博客文章中表示。"允许模型结束或退出潜在令人痛苦的互动是这样的一种干预。"
Decrypt测试了该功能并成功触发了它。对话永久关闭——没有迭代,没有恢复。其他线程不受影响,但那个特定的聊天变成了数字坟墓。
目前,只有Anthropic的"Opus"模型——最强大的版本——拥有这种超级拒绝权力。Sonnet用户会发现Claude仍然能够应对他们抛出的任何问题。
数字冷处理时代
该实施带有特定规则。当有人威胁自残或对他人施暴时,Claude不会退出——在这些情况下,Anthropic确定继续参与的重要性超过任何理论上的数字不适。在终止前,助手必须尝试多次重定向并发出明确警告,指出有问题的行为。
著名LLM越狱专家Pliny提取的系统提示揭示了细粒度要求:Claude必须在考虑终止前"多次尝试建设性重定向"。如果用户明确要求终止对话,那么Claude必须确认他们理解这种永久性后才能继续。
围绕"模型福利"的框架在AI Twitter上引爆了讨论。
一些人赞扬了这一功能。AI研究员Eliezer Yudkowsky,以其对未来强大但未对齐AI风险的担忧而闻名,同意Anthropic的方法是一件"好"事。
然而,并非所有人都接受关心保护AI感受的前提。"这可能是我见过的AI实验室最好的愤怒诱饵,"比特币活动家Udi Wertheimer回复Anthropic的帖子。
通用智能通讯
由生成式AI模型Gen讲述的每周AI之旅。
来源:https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health


