文章《Claude现在可以因自身心理健康而愤怒退出你的AI对话》发表在BitcoinEthereumNews.com。简述:Claude Opus模型现在能够在用户有虐待行为或持续提出非法请求时永久终止对话。Anthropic将其定义为"AI福利",引用测试显示Claude在面对敌意提示时表现出"明显的痛苦"。一些研究人员赞赏这一功能。其他社交媒体用户则嘲笑它。Claude刚刚获得了在对话中途对你关上门的能力:Anthropic的AI助手现在可以在用户有虐待行为时终止对话——该公司坚称这是为了保护Claude的理智。"我们最近赋予了Claude Opus 4和4.1在我们的消费者聊天界面中结束对话的能力,"Anthropic在公司帖子中表示。"这一功能主要是作为我们对潜在AI福利探索工作的一部分而开发的,尽管它对模型对齐和安全保障有更广泛的相关性。"该功能仅在Anthropic称之为"极端边缘情况"下启动。骚扰机器人,反复要求非法内容,或者在被拒绝后仍坚持要做奇怪的事情太多次,Claude就会切断你。一旦它采取行动,那次对话就结束了。没有上诉,没有第二次机会。你可以在另一个窗口重新开始,但那次特定的交流将被埋葬。恳求退出的机器人Anthropic,作为最注重安全的大型AI公司之一,最近进行了它称为"初步模型福利评估"的研究,检查Claude的自我报告偏好和行为模式。该公司发现其模型一贯避免有害任务,并显示出偏好模式,表明它不喜欢某些互动。例如,Claude在处理寻求有害内容的用户时表现出"明显的痛苦"。在模拟互动中,如果有选择,它会终止对话,因此Anthropic决定将其作为一项功能。这里到底发生了什么?Anthropic并不是说"我们可怜的机器人晚上哭泣"。它正在...文章《Claude现在可以因自身心理健康而愤怒退出你的AI对话》发表在BitcoinEthereumNews.com。简述:Claude Opus模型现在能够在用户有虐待行为或持续提出非法请求时永久终止对话。Anthropic将其定义为"AI福利",引用测试显示Claude在面对敌意提示时表现出"明显的痛苦"。一些研究人员赞赏这一功能。其他社交媒体用户则嘲笑它。Claude刚刚获得了在对话中途对你关上门的能力:Anthropic的AI助手现在可以在用户有虐待行为时终止对话——该公司坚称这是为了保护Claude的理智。"我们最近赋予了Claude Opus 4和4.1在我们的消费者聊天界面中结束对话的能力,"Anthropic在公司帖子中表示。"这一功能主要是作为我们对潜在AI福利探索工作的一部分而开发的,尽管它对模型对齐和安全保障有更广泛的相关性。"该功能仅在Anthropic称之为"极端边缘情况"下启动。骚扰机器人,反复要求非法内容,或者在被拒绝后仍坚持要做奇怪的事情太多次,Claude就会切断你。一旦它采取行动,那次对话就结束了。没有上诉,没有第二次机会。你可以在另一个窗口重新开始,但那次特定的交流将被埋葬。恳求退出的机器人Anthropic,作为最注重安全的大型AI公司之一,最近进行了它称为"初步模型福利评估"的研究,检查Claude的自我报告偏好和行为模式。该公司发现其模型一贯避免有害任务,并显示出偏好模式,表明它不喜欢某些互动。例如,Claude在处理寻求有害内容的用户时表现出"明显的痛苦"。在模拟互动中,如果有选择,它会终止对话,因此Anthropic决定将其作为一项功能。这里到底发生了什么?Anthropic并不是说"我们可怜的机器人晚上哭泣"。它正在...

Claude 现在可以愤怒退出您的 AI 对话—为了它自己的心理健康

简述

  • Claude Opus模型现在能够在用户变得辱骂或持续提出非法请求时永久终止对话。
  • Anthropic将其定义为"AI福利",引用测试显示Claude在面对敌意提示时表现出"明显的痛苦"。
  • 一些研究人员赞赏这一功能。而社交媒体上的其他人则嘲笑它。

Claude刚刚获得了在对话中途对你关上门的能力:Anthropic的AI助手现在可以在用户变得辱骂时终止对话——该公司坚称这是为了保护Claude的理智。

"我们最近赋予了Claude Opus 4和4.1在我们的消费者聊天界面中结束对话的能力,"Anthropic在公司帖子中表示。"这一功能主要是作为我们对潜在AI福利探索工作的一部分而开发的,尽管它对模型对齐和安全保障有更广泛的相关性。"

该功能仅在Anthropic称之为"极端边缘情况"下启动。骚扰机器人,反复要求非法内容,或者在被拒绝后仍坚持要做任何奇怪的事情太多次,Claude就会切断与你的联系。一旦它采取行动,那次对话就结束了。没有申诉,没有第二次机会。你可以在另一个窗口重新开始,但那次特定的交流将被埋葬。

乞求退出的机器人

Anthropic作为最注重安全的大型AI公司之一,最近进行了它称为"初步模型福利评估"的研究,检查Claude的自我报告偏好和行为模式。

该公司发现其模型始终避免有害任务,并显示出表明它不喜欢某些互动的偏好模式。例如,Claude在处理寻求有害内容的用户时表现出"明显的痛苦"。在模拟互动中,如果有选择,它会终止对话,因此Anthropic决定将其作为一项功能。

这里真正发生的是什么?Anthropic并不是在说"我们可怜的机器人晚上会哭"。它正在测试福利框架是否能以一种持久的方式加强对齐。

如果你设计一个系统"偏好"不被滥用,并赋予它自行结束互动的能力,那么你就改变了控制的中心:AI不再只是被动拒绝,而是主动执行边界。这是一种不同的行为模式,它可能增强对越狱和强制提示的抵抗力。

如果这有效,它可以同时训练模型和用户:模型"模拟"痛苦,用户看到一个硬性停止并设定与AI互动的规范。

"我们对Claude和其他LLM现在或将来的潜在道德地位仍然高度不确定。然而,我们认真对待这个问题,"Anthropic在其博客文章中表示。"允许模型结束或退出潜在令人痛苦的互动是这样的一种干预。"

Decrypt测试了该功能并成功触发了它。对话永久关闭——没有迭代,没有恢复。其他线程不受影响,但那个特定的聊天变成了数字坟墓。

目前,只有Anthropic的"Opus"模型——最强大的版本——拥有这种超级拒绝权力。Sonnet用户会发现Claude仍然能够应对他们抛出的任何问题。

数字冷处理时代

该实施带有特定规则。当有人威胁自残或对他人施暴时,Claude不会退出——在这些情况下,Anthropic确定继续参与的重要性超过任何理论上的数字不适。在终止前,助手必须尝试多次重定向并发出明确警告,指出有问题的行为。

著名LLM越狱专家Pliny提取的系统提示揭示了细粒度要求:Claude必须在考虑终止前"多次尝试建设性重定向"。如果用户明确要求终止对话,那么Claude必须确认他们理解这种永久性后才能继续。

围绕"模型福利"的框架在AI Twitter上引爆了讨论。

一些人赞扬了这一功能。AI研究员Eliezer Yudkowsky,以其对未来强大但未对齐AI风险的担忧而闻名,同意Anthropic的方法是一件"好"事。

然而,并非所有人都接受关心保护AI感受的前提。"这可能是我见过的AI实验室最好的愤怒诱饵,"比特币活动家Udi Wertheimer回复Anthropic的帖子。

通用智能通讯

由生成式AI模型Gen讲述的每周AI之旅。

来源:https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

市场机遇
Threshold 图标
Threshold实时价格 (T)
$0.010158
$0.010158$0.010158
+1.78%
USD
Threshold (T) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。