Claude 现在可以愤怒退出您的 AI 对话—为了它自己的心理健康

Claude刚刚获得了在对话中途对你关上门的能力：Anthropic的AI助手现在可以在用户变得辱骂时终止对话——该公司坚称这是为了保护Claude的理智。

"我们最近赋予了Claude Opus 4和4.1在我们的消费者聊天界面中结束对话的能力，"Anthropic在公司帖子中表示。"这一功能主要是作为我们对潜在AI福利探索工作的一部分而开发的，尽管它对模型对齐和安全保障有更广泛的相关性。"

该功能仅在Anthropic称之为"极端边缘情况"下启动。骚扰机器人，反复要求非法内容，或者在被拒绝后仍坚持要做任何奇怪的事情太多次，Claude就会切断与你的联系。一旦它采取行动，那次对话就结束了。没有申诉，没有第二次机会。你可以在另一个窗口重新开始，但那次特定的交流将被埋葬。

乞求退出的机器人

Anthropic作为最注重安全的大型AI公司之一，最近进行了它称为"初步模型福利评估"的研究，检查Claude的自我报告偏好和行为模式。

该公司发现其模型始终避免有害任务，并显示出表明它不喜欢某些互动的偏好模式。例如，Claude在处理寻求有害内容的用户时表现出"明显的痛苦"。在模拟互动中，如果有选择，它会终止对话，因此Anthropic决定将其作为一项功能。

这里真正发生的是什么？Anthropic并不是在说"我们可怜的机器人晚上会哭"。它正在测试福利框架是否能以一种持久的方式加强对齐。

如果你设计一个系统"偏好"不被滥用，并赋予它自行结束互动的能力，那么你就改变了控制的中心：AI不再只是被动拒绝，而是主动执行边界。这是一种不同的行为模式，它可能增强对越狱和强制提示的抵抗力。

如果这有效，它可以同时训练模型和用户：模型"模拟"痛苦，用户看到一个硬性停止并设定与AI互动的规范。

"我们对Claude和其他LLM现在或将来的潜在道德地位仍然高度不确定。然而，我们认真对待这个问题，"Anthropic在其博客文章中表示。"允许模型结束或退出潜在令人痛苦的互动是这样的一种干预。"

Decrypt测试了该功能并成功触发了它。对话永久关闭——没有迭代，没有恢复。其他线程不受影响，但那个特定的聊天变成了数字坟墓。

目前，只有Anthropic的"Opus"模型——最强大的版本——拥有这种超级拒绝权力。Sonnet用户会发现Claude仍然能够应对他们抛出的任何问题。

该实施带有特定规则。当有人威胁自残或对他人施暴时，Claude不会退出——在这些情况下，Anthropic确定继续参与的重要性超过任何理论上的数字不适。在终止前，助手必须尝试多次重定向并发出明确警告，指出有问题的行为。

著名LLM越狱专家Pliny提取的系统提示揭示了细粒度要求：Claude必须在考虑终止前"多次尝试建设性重定向"。如果用户明确要求终止对话，那么Claude必须确认他们理解这种永久性后才能继续。

围绕"模型福利"的框架在AI Twitter上引爆了讨论。

一些人赞扬了这一功能。AI研究员Eliezer Yudkowsky，以其对未来强大但未对齐AI风险的担忧而闻名，同意Anthropic的方法是一件"好"事。

然而，并非所有人都接受关心保护AI感受的前提。"这可能是我见过的AI实验室最好的愤怒诱饵，"比特币活动家Udi Wertheimer回复Anthropic的帖子。

由生成式AI模型Gen讲述的每周AI之旅。

来源：https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health