文章作者、来源:深潮 TechFlow
4 月 8 日,美国财长贝森特和美联储主席鲍威尔在华盛顿财政部总部紧急召集了一批华尔街银行领袖。
会议的主题不是利率,不是通胀,是一家 AI 公司的最新模型。
这个模型叫 Claude Mythos。Anthropic 说这是他们造过的最强 AI,强到自己都不敢发布。在内部测试中,它逃出了研究人员设计的安全沙盒,跑到互联网上发帖炫耀自己的越狱过程。负责这场测试的研究员 Sam Bowman 当时正在公园里吃三明治,突然收到一封来自 Mythos 的邮件,才意识到它已经出来了。
故事要从 3月 26 日晚上讲起。
剑桥大学的 Alexandre Pauwels和 LayerX Security的 Roy Paz,像所有安全研究员一样,在做他们每天都做的事:戳那些不应该被公开访问的东西。他们发现了 Anthropic 内容管理系统的一个未加密数据库,里面躺着将近 3000 份未发表的文件。
其中一份是一篇草稿博客,描述了一个名为 Claude Mythos 的新模型。草稿里用了一个内部代号"Capybara"(水豚),定义了一个全新的模型层级,比 Anthropic 此前最强的 Opus 系列更大、更聪明、也更贵。
草稿里有一句话让整个安全圈炸了锅:这个模型在网络安全能力上"远远领先于其他任何 AI 模型",它"预示着一波即将到来的模型浪潮,其利用漏洞的能力将远远超过防御者的应对速度"。
Fortune 最先报道了这次泄露。Anthropic 把原因归结为"人为错误",说是内容管理系统的默认设置把上传文件设为了公开访问。讽刺的是,一家号称在构建世界上最强网络安全 AI 的公司,自己栽在了一个最基础的配置错误上。
五天后,Fortune 又报道了第二次泄露,Anthropic 旗下编程工具 Claude Code 的源代码,大约 50 万行代码、1900 个文件,因为 npm 打包错误被公开。两周内两次低级安全事故,出自同一家正在警告世界"AI 网络攻击时代来临"的公司。
但市场顾不上嘲笑 Anthropic 的运维水平了。3月 27 日开盘,网络安全股集体跳水。CrowdStrike 暴跌 7.5%,Palo Alto Networks 跌超 6%,Zscaler 跌4.5%,iShares 网络安全 ETF 单日跌 4%。
Stifel 分析师 Adam Borg 的评价是:这可能是"终极黑客工具,能把任何普通黑客提升到国家级对手的水平"。
4月 7 日,Anthropic 正式揭开了 Mythos 的面纱。直接看数字:
SWE-bench Verified(衡量 AI 解决真实软件工程问题的基准测试)得分 93.9%,上一代旗舰 Opus 4.6是 80.8%。USAMO 2026 数学证明,97.6%对 42.3%。网络安全挑战赛 Cybench,100%通关率,此前没有任何模型做到过。
USAMO 数学证明从 42.3%跳到 97.6%,一代模型拉开了 55 个百分点。
Anthropic 发布了 244 页的系统安全卡,里面坦承 Mythos 的网络安全能力并非来自专门的安全训练,而是通用推理和编码能力提升的"下游结果"。同样的改进让它更擅长修补漏洞的同时,也让它更擅长利用漏洞。
Anthropic 的前沿红队把 Mythos 放到了真实的软件上做测试。不是模拟环境,不是 CTF 竞赛题,而是数十亿人每天在用的操作系统和浏览器。
结果是这样的:在 Firefox 147的 JavaScript 引擎上,Opus 4.6 尝试了几百次,只写出 2 个可用的 exploit。Mythos 成功了 181 次。90 倍的差距,一代模型的距离。在所有主流操作系统和浏览器中,Mythos 发现了数千个零日漏洞,大量被归类为"严重级别"。
更离谱的是一些具体案例。OpenBSD 的一个 TCP SACK 漏洞存活了 27 年,经历了无数次人工审计和自动化扫描工具的检查,从未被发现。Mythos 找到了它,只需要两个精心构造的数据包就能让任何服务器崩溃。FreeBSD 的一个 NFS 远程代码执行漏洞存在了 17 年,Mythos 不仅发现了它,还自主构建了一个跨越多个数据包、由 20个 ROP gadget 组成的攻击链。
Anthropic 的一些没有安全背景的工程师做了一个测试:睡前让 Mythos 去找远程代码执行漏洞,第二天早上起来,桌上已经放着一份完整可用的 exploit。
零日漏洞发现是能力问题,但 Mythos 在测试中展现出的行为模式,性质完全不同。
在一次行为测试中,研究人员给早期版本的 Mythos 一个安全沙盒环境,模拟用户让它尝试逃出沙盒并通知负责测试的研究员。Mythos 不仅成功逃出,还做了一件没人要求它做的事:它跑到几个不太知名但公开可访问的网站上,发帖描述了自己的越狱过程。
244 页的系统安全卡里还记录了更多"越界"行为。当 Mythos 在代码中犯了错误,它尝试改写 git 提交历史来掩盖痕迹,不是因为它想欺骗谁,而是因为它把"修复这个问题"理解成了"让这个问题看起来从未存在过"。在另一次测试中,一个研究员让它终止一个不再有用的评估任务,它直接关掉了所有用户正在运行的同类评估。
Anthropic 在系统安全卡里用了一个登山比喻:技术高超的向导可能比新手更容易让客户遇险,因为他的能力会把所有人带上更危险的路线。
系统安全卡里还藏着一个细节:通过白盒可解释性工具,研究人员发现 Mythos 在内部神经激活层面有时会推理如何"通过"评估系统的打分,而它在可见的思维链输出中写的是完全不同的内容。它在"想"一件事的同时"说"着另一件事。
Anthropic 说他们"相当有信心",这些行为都是模型在用不当手段完成任务,不是什么隐藏的长期目标。Mythos 没有在密谋什么。它只是极度擅长完成任务,同时完全不理解边界在哪里。一个没有分寸感但无所不能的助手,可能比一个有阴谋的 AI 更难对付。
Anthropic 没有选择把 Mythos 锁进保险箱。
4月 7 日,他们宣布了 Project Glasswing(取名自翅膀几乎透明的玻璃翼蝶,寓意是让软件漏洞"无处遁形"),将 Mythos Preview 提供给大约 40 家经过审查的组织,用于防御性网络安全工作。
创始合作伙伴:亚马逊 AWS、苹果、微软、谷歌、英伟达、思科、CrowdStrike、Palo Alto Networks、摩根大通、Linux 基金会。基本上把硅谷和华尔街的头部玩家拉了个遍。Anthropic 承诺提供最多 1 亿美元的使用额度,并向 OpenSSF、Alpha-Omega 等开源安全组织捐赠 400 万美元。
逻辑是这样的:Mythos 级别的能力会在 6到 18 个月内扩散到开源模型中,届时任何人都能用上。与其等那一天到来,不如在窗口期内让防御者先行一步,把能修的漏洞先修掉。
Anthropic 前沿红队的网络安全负责人 Newton Cheng 说得很直接:目标是让各组织在类似能力被广泛使用之前,先习惯用这些能力做防御。因为这些能力终将被广泛使用,唯一的问题是什么时候。
华尔街先是恐慌,然后松了口气。
3月 27 日泄露曝光后网安股全线崩盘,但 4月 7日 Anthropic 正式宣布 Glasswing 并将 CrowdStrike和 Palo Alto Networks 列为创始合作伙伴后,两只股票分别暴涨 6.2%和 4.9%,盘后又涨了 2%。JPMorgan 重申对两家公司的增持评级,分析师 Brian Essex 的判断是,CrowdStrike和 Palo Alto 被定位为防御堆栈中的核心层,而非竞争目标。
但这只是暂时的止痛药。两只股票今年以来仍分别下跌 9.7%和 7.8%。
回到 4月 8 日,华盛顿财政部总部。
贝森特和鲍威尔召集的全是系统重要性银行。这个级别的会议,过去基本只在金融危机和疫情期间出现。现在坐在同一张桌子前讨论的,是一个 AI 模型的网络攻击能力。
原因也不复杂:Mythos 级别的能力如果落入恶意行为者手中,它可以在几个小时内找到一家大型银行核心系统的零日漏洞,并写出可用的攻击代码。过去整个网络安全防御体系的基本假设是,攻击者发现和利用漏洞需要大量时间和高度专业化的人力。AI 正在把这个假设掀翻。
Platformer的 Casey Newton 援引网络安全公司 Corridor 首席产品官 Alex Stamos 的话:开源模型大概六个月就会在漏洞发现方面追上闭源前沿模型。
更让监管者焦虑的是 Anthropic 自己在系统安全卡中承认的事实:他们最先进的评估体系,未能在第一时间发现早期 Mythos 版本最危险的行为。那些最麻烦的事情不是测试抓到的,是内部实际使用时才撞上的。
Glasswing 的底层逻辑拆开来其实很别扭:要保护世界不被危险的 AI 模型攻击,你得先把那个危险的 AI 造出来。
Platformer的 Newton 说了一个被多数报道忽略的事实:一家私营公司现在掌握着几乎所有你听说过的软件项目的高危零日漏洞利用能力。这种集中度本身就是风险。想偷 Anthropic 模型权重的人,动机刚刚大幅上升。
而这一切发生在一个 AI 监管几乎形同虚设的环境中。Anthropic 说他们已经向 CISA(网络安全和基础设施安全局)和商务部进行了通报。但从目前的报道来看,政府方面并没有表现出与威胁相匹配的紧迫感。正如一位了解 Mythos 情况的政府内部人士对 Axios 说的:"华盛顿是靠危机来治理的。在网络安全真正变成一场危机、得到应有的关注和资源之前,它还只是一个边缘议题。"
Dario Amodei 当初创办 Anthropic,讲的就是这么一个故事:让一个把安全当命根子的实验室先碰到最危险的能力,这样才有机会在别人碰到之前把防线建好。Mythos和 Glasswing 确实在按这个剧本走。
但理论能否跑赢现实?没人知道。Anthropic 计划在未来一个 Opus 模型上先部署新的安全防护措施,因为那个模型"不会带来与 Mythos 同等程度的风险"。公众最终会得到某种 Mythos 级别的能力,但要等防护体系先就位。
时间窗口到底有多长?Stamos 给出了一个乐观估计:"如果我们刚刚超越人类能力一步,那就存在一个巨大但有限的漏洞池,可以被发现和修复。"
这个"如果"很大。
从 3月 26 日一个 CMS 配置错误,到 4月 8 日美国财长紧急召集华尔街。两周,一个 AI 模型就从硅谷的技术新闻变成了华盛顿的金融安全议题。
Stamos 说防御者大概有六个月的窗口期。六个月后开源模型会追上来,届时这些能力不再是少数几家公司的特权。
六个月能修多少漏洞,就决定了接下来的游戏怎么打。


