文章作者: Oliver Hsu(a16z)
文章编译: 深潮 TechFlow
导读: 这篇文章来自 a16z 研究员 Oliver Hsu,是 2026 年以来最系统的一份「物理 AI」投资地图。他的判断是:语言/代码这条主线仍在 scaling,但真正能跑出下一代颠覆性能力的,是紧挨着主线的三个领域——通用机器人、自主科学(AI 科学家)、脑机接口等新型人机接口。作者拆解了支撑它们的五个底层能力,并论证这三条战线之间会形成相互喂养的结构性飞轮。对想看清物理 AI 投资逻辑的人,这是目前最完整的框架。
今天主导 AI 的范式,围绕语言和代码组织。大语言模型的 scaling law 已经被刻画得很清楚,数据、算力、算法改进的商业飞轮正在转动,能力每上一个台阶带来的回报仍然很大,而且这些回报大部分是看得见的。这套范式配得上它吸走的资本和注意力。
但另一批毗邻领域,已经在孕育期里做出了实质进展。这里包括 VLA(视觉-语言-动作模型)、WAM(世界动作模型)等通用机器人路线,围绕「AI 科学家」展开的物理与科学推理,以及利用 AI 进展重塑人机交互的新型接口(包含脑机接口和神经科技)。除了技术本身,这几个方向都开始吸引到人才、资本和创始人。把前沿 AI 延伸到物理世界的技术原语正在同时成熟,过去 18 个月的进展说明这些领域很快会进入各自的 scaling 阶段。
在任何一个技术范式里,当前能力和中期潜力之间 delta 最大的地方,往往具备两个特征:一是能吃到驱动当前前沿的同一套 scaling 红利,二是离主流范式又有一步距离——近到能继承它的基础设施和研究动能,远到需要做实打实的额外工作。这段距离本身就有双重作用:它自然形成了对快速跟随者的护城河,同时也定义了一个信息更稀、更不拥挤的问题空间,因此更可能涌现新能力——恰恰因为捷径还没被走完。
图注:当前 AI 范式(语言/代码)与毗邻前沿系统的关系示意
今天符合这一描述的有三个领域:机器人学习、自主科学(尤其是材料和生命科学方向)、以及新型人机接口(包括脑机接口、无声语音、神经可穿戴,以及像数字化嗅觉这样的新感官通道)。它们并非完全独立的工作,主题上属于同一群「物理世界的前沿系统」。它们共享一套底层原语:物理动力学的学习表征、面向具身动作的架构、仿真与合成数据基础设施、不断扩展的感官通道、以及闭环的智能体编排。它们在跨领域的反馈关系中彼此强化。它们也是最可能涌现出质变能力的地方——模型规模、物理落地、新数据形态三者交互的产物。
本文将梳理支撑这些系统的技术原语,说明为什么这三个领域代表了前沿机会,并提出它们之间的相互强化构成一个结构性飞轮,把 AI 推向物理世界。
在看具体应用之前,先理解这些前沿系统共享的技术底座。把前沿 AI 推进到物理世界,靠的是五个主要原语。这些技术不专属于任何单一应用领域,它们是构件——能让「把 AI 延伸到物理世界」的系统被造出来。它们的同步成熟,是当下这个时刻之所以特别的原因。
图注:支撑物理 AI 的五个底层原语
最根本的一个原语,是能学出一套压缩的、通用的物理世界行为表征——物体如何运动、形变、碰撞、对受力如何反应。没有这一层,每个物理 AI 系统都得从零学起自己领域的物理规律,这个成本没人付得起。
好几个架构流派正在从不同方向逼近这个目标。VLA 模型从上层切入:拿预训练好的视觉-语言模型——这类模型已经具备对物体、空间关系和语言的语义理解——在它们上面加一个动作解码器输出运动控制指令。关键点在于,学会「看」和「理解世界」的巨额成本可以被互联网规模的图文预训练摊薄。Physical Intelligence 的 π₀、Google DeepMind 的 Gemini Robotics、英伟达的 GR00T N1,都在越来越大的规模上验证了这种架构。
WAM 模型则从下层切入:基于在互联网规模视频上预训练的视频扩散 Transformer,继承对物理动力学的丰富先验(物体怎么下落、怎么被遮挡、受力后怎么互动),再把这些先验和动作生成耦合起来。英伟达的 DreamZero 展示了对全新任务和环境的零样本泛化,用少量适配数据就能从人类视频演示中做跨本体迁移,真实世界泛化能力拿到了有意义的提升。
第三条路线或许对判断未来方向最有启发,它把预训练 VLM 和视频扩散骨干整个跳过。Generalist 的 GEN-1 是一个从头训练的原生具身基础模型,训练数据是超过 50 万小时的真实物理交互数据,主要通过低成本可穿戴设备从执行日常操作任务的人身上收集。它不是标准意义上的 VLA(没有一个视觉-语言骨干在被微调),也不是 WAM。它就是一个专为物理交互设计的基础模型,从零开始,学的不是互联网图像、文本或视频的统计规律,而是人与物体接触的统计规律。
像 World Labs 这类公司在做的空间智能,对这个原语有价值,因为它补上了 VLA、WAM 和原生具身模型共同的短板:三者都没有显式建模所处场景的三维结构。VLA 继承的是图文预训练的 2D 视觉特征;WAM 从视频里学动力学,视频本身是 3D 的 2D 投影;从穿戴传感器数据学习的模型能捕捉力和运动学,但捕捉不了场景几何。空间智能模型能帮补上这块——学会重建、生成物理环境的完整 3D 结构并对它推理:几何、光照、遮挡、物体关系、空间布局。
各条路线的收敛本身就是重点。不管表征是从 VLM 继承、从视频协同训练中学出来、还是原生从物理交互数据里搭出来的,底层原语是同一个:压缩的、可迁移的物理世界行为模型。这些表征能吃到的数据飞轮非常庞大、大部分还没动——不只是互联网视频和机器人轨迹,还有可穿戴设备正在开始规模化采集的那片海量人类身体经验语料。同一套表征既能服务一个正在学叠毛巾的机器人,也能服务一个在预测反应结果的自主实验室,还能服务一个正在解读运动皮层抓握意图的神经解码器。
光有物理表征不够。把「理解」翻译成可靠的物理动作,需要架构去解决几个相互关联的问题:把高层意图映射到连续运动指令、在长动作序列上保持一致性、在实时延迟约束下运行、以及随经验持续提升。
双系统分层架构已经成了复杂具身任务的标准设计:慢而强的视觉-语言模型负责场景理解和任务推理(System 2),配上一个快而轻的视觉-运动策略负责实时控制(System 1)。GR00T N1、Gemini Robotics、Figure 的 Helix 都采用这种路线的变体,解决了「大模型提供丰富推理」和「物理任务要求毫秒级控制频率」之间的根本张力。Generalist 则走了另一条路,用「谐振推理」让思考和动作同时发生。
动作生成机制本身也在快速演化。π₀ 开创的基于流匹配和扩散的动作头,已经成为生成平滑、高频连续动作的主流方法,取代了从语言建模借来的离散 tokenization。这类方法把动作生成当成一个类似图像合成的去噪过程,产出的轨迹物理上更平滑、对误差累积更稳健,优于自回归 token 预测。
但架构层面最关键的进展,可能是把强化学习扩展到预训练 VLA 上——一个在示范数据上训练出来的基础模型,可以通过自主练习继续提升,就像人通过反复练习和自我修正打磨一项技能。Physical Intelligence 的 π*₀.₆ 工作是对这一原则的最清晰规模化演示。他们的方法叫 RECAP(基于优势条件策略的经验与修正强化学习),解决的问题是纯模仿学习没法搞定的长序列信用分配。一个机器人如果以略微偏斜的角度抓起了意式咖啡机的手柄,失败不会立即出现,可能到几步之后插入时才暴露。模仿学习没机制把这次失败归因到更早那次抓取上,RL 有。RECAP 训练一个价值函数,估计从任意中间状态开始成功的概率,然后让 VLA 选择高优势动作。关键在于,它把多种异质数据——示范数据、在策略自主经验、执行过程中专家远程操作提供的修正——整合进同一个训练管线。
这套方法的结果对 RL 在动作领域的前景是个好消息。π*₀.₆ 在真实家庭环境中叠 50 种从未见过的衣物、可靠地组装纸箱、在专业机器上制作意式咖啡,连续运行几个小时无需人介入。在最难的任务上,RECAP 相对纯模仿基线把吞吐翻了一倍多,失败率砍掉一半以上。这套系统还证明了 RL 后训练会产生模仿学习得不到的质变行为:更平滑的恢复动作、更高效的抓取策略、示范数据里不存在的自适应纠错。
这些收益说明一件事:把大模型从 GPT-2 推到 GPT-4 的算力 scaling 动力,正开始在具身领域运转——只是现在位于曲线更早的位置,动作空间是连续的、高维的,并且要面对物理世界那些毫不留情的约束。
在语言领域,数据问题被互联网解决了:自然产生、免费可得的万亿级 token 文本。在物理世界,这个问题难上几个数量级——这一点现在已经是共识,最直接的信号是针对物理世界的数据供应商创业公司正在迅速增加。真实世界的机器人轨迹采集成本高、规模化有风险、多样性有限。一个语言模型可以从十亿次对话中学习,一个机器人(暂时)没办法有十亿次物理交互。
仿真和合成数据生成是解决这一约束的基础设施层,它们的成熟是物理 AI 在今天而不是五年前加速的关键原因之一。
现代仿真栈把基于物理的仿真引擎、基于光线追踪的照片级渲染、程序化环境生成、以及用仿真输入生成照片级视频的世界基础模型组合在了一起——后者负责弥合 sim-to-real 的鸿沟。整条管线从真实环境的神经重建(只用一部手机就能做)开始,填充物理精确的 3D 资产,再到带自动标注的大规模合成数据生成。
仿真栈的改进意义在于,它在改变支撑物理 AI 的经济假设。如果物理 AI 的瓶颈从「收集真实数据」转向「设计多样虚拟环境」,成本曲线就会垮下来。仿真随算力扩展,不靠人力和物理硬件。这对训练物理 AI 系统的经济结构的改造,跟互联网文本数据对训练语言模型的改造是同一种——意味着对仿真基础设施的投资对整个生态杠杆极大。
但仿真不只是机器人原语。同一套基础设施服务于自主科学(实验室设备的数字孪生、假设预筛用的仿真反应环境)、新型接口(训练 BCI 解码器的仿真神经环境、标定新传感器的合成感官数据)、以及其他 AI 与物理世界交互的领域。仿真是物理世界 AI 的通用数据引擎。
物理世界传递信息的信号,远比视觉和语言丰富。触觉传递材料属性、抓握稳定性、接触几何等摄像头看不到的信息。神经信号以任何现有人机接口都远远不及的带宽编码运动意图、认知状态、感知经验。亚声带肌肉活动在任何声音产生之前就编码了言语意图。第四个原语,是 AI 对这些此前难以触达模态的感官通路快速扩展——不只来自研究,也来自一整个构建消费级设备、软件和基础设施的生态。
图注:正在扩展的 AI 感官通道,从 AR、EMG 到脑机接口
最直观的指标是新品类设备的出现。AR 设备近几年在体验和形态上大幅改善(已经有公司在这个平台上做消费和工业场景的应用);语音优先的 AI 可穿戴让语言类 AI 拿到了更完整的物理世界上下文——它们真的跟着用户走进物理环境。长期来看,神经接口可能打开更完整的交互模态。AI 带来的计算方式转变,创造了一个让人机交互大幅升级的机会,Sesame 这样的公司正在为此打造新的模态和设备。
语音这种更主流的模态,也为新兴交互方式带来顺风车。像 Wispr Flow 这类产品把语音推成主要输入方式(因为它信息密度高,有天然优势),无声语音接口的市场条件也跟着改善。无声语音设备用多种传感器捕捉舌头和声带动作,无声识别语言——它代表一种比语音信息密度更高的人机交互模态。
脑机接口(有创和非侵入式)代表更深的前沿,围绕它的商业生态持续推进。信号会出现在临床验证、监管批准、平台整合、机构资本四者的汇合点上——而这是几年前还纯粹属于学术领域的一个技术品类。
触觉感知正进入具身 AI 架构,机器人学习里的一些模型开始把触觉作为一等公民显式纳入。嗅觉接口正在变成真实的工程产物:可穿戴嗅觉显示器用微型气味发生器、毫秒级响应,已经在混合现实应用里被演示;嗅觉模型也开始跟视觉 AI 系统配对,用于化工过程监控。
这些发展的共同规律是:它们在极限下会彼此收敛。AR 眼镜持续生成用户和物理环境交互的视觉和空间数据;EMG 腕带捕捉人类运动意图的统计规律;无声语音接口捕捉亚声带发音到语言输出的映射;BCI 以目前最高分辨率捕捉神经活动;触觉传感器捕捉物理操作的接触动力学。每一个新品类设备同时也是一个数据生成平台,喂养着多个应用领域底层的模型。一个用 EMG 推断运动意图数据训练的机器人,和一个只靠远程操作数据训练的机器人,学到的抓握策略不一样;一个响应亚声带指令的实验室接口,和一个键盘控制的实验室,带来的科学家-机器交互方式完全不同;一个用高密度 BCI 数据训练的神经解码器,能产出任何其他渠道都拿不到的运动规划表征。
这些设备的扩散正在扩展训练前沿物理 AI 系统可用数据流形的有效维度——并且这种扩展很大一部分由资本充裕的消费品公司驱动,而非只来自学术实验室,意味着数据飞轮能跟着市场采纳率一起扩张。
最后一个原语更偏架构层面。它指的是把感知、推理、动作编排成持续、自主、闭环运转的系统,在长时间维度上无人介入地工作。
在语言模型里,对应的发展是智能体系统的兴起——多步推理链、工具使用、自我纠正流程,把模型从单轮问答工具推到了自主问题解决者。在物理世界,同样的转变正在发生,只是要求苛刻得多。一个语言智能体出错可以无成本回退;一个物理智能体打翻一瓶试剂就回不去了。
物理世界的智能体系统有三个特性把它和数字版区分开来。第一,它们需要嵌入实验或运行闭环:直接对接原始仪器数据流、物理状态传感器和执行原语,让推理落在物理现实上,而不是物理现实的文字描述上。第二,它们需要长序列持久性:记忆、溯源追踪、安全监控、恢复行为,把多个运行周期连起来,而不是把每个任务当成独立插曲。第三,它们需要闭环适应:根据物理结果修订策略,而不是只根据文字反馈。
这个原语把一个个独立能力(好的世界模型、可靠的动作架构、丰富的传感器套件)融合成能在物理世界自主运转的完整系统。它是集成层,它的成熟是下文三个应用领域能作为真实世界部署而非孤立研究演示存在的前提。
上面这些原语是通用的使能层,它们本身并不指定最重要的应用会长在哪里。很多领域都涉及物理动作、物理测量或物理感知。把「前沿系统」和「仅仅是改良版现有系统」区分开的,是领域内模型能力提升和 scaling 基础设施发生复利的程度——不只是性能更好,而是涌现出以前做不到的新能力。
机器人、AI 驱动科学、新型人机接口是这种复利效应最强的三个领域。每一个都用独特方式把原语组装起来,每一个都被当前原语正在解除的约束卡住,也每一个都会在运行过程中副产品式地生成一种结构化物理数据——这种数据反过来让原语本身变得更好,形成反馈回路,加速整个系统。它们不是唯一值得关注的物理 AI 领域,但它们是前沿 AI 能力和物理现实交互最密集的地方,也是距离当前语言/代码范式最远、因此新能力涌现空间最大——同时又与之高度互补、能吃到其红利的地方。
机器人是最字面意义上的物理 AI 体现:一个 AI 系统要实时感知、推理、对物质世界施加物理动作。它也同时对每一个原语构成压力测试。
想想一个通用机器人要叠一条毛巾得做多少事。它需要对可变形材料在受力下如何表现有一套学到的表征——一个物理先验,而这不是语言预训练能提供的。它需要一个能把高层指令翻译成 20Hz 以上控制频率连续运动指令序列的动作架构。它需要仿真生成的训练数据,因为没人收集过几百万次真实叠毛巾演示。它需要触觉反馈来检测滑动并调整抓握力,因为视觉分不清一次稳固抓握和一次正在失败的抓握。它还需要一个闭环控制器,能在叠错时识别出错并恢复,而不是盲目执行记忆轨迹。
图注:机器人任务对五个底层原语的同时调用
这就是为什么机器人是一个前沿系统,而不是一个工具更好的成熟工程学科。这些原语不是改良现有机器人能力,它们解锁的是之前在窄受控工业环境之外做不到的操作、运动和交互类别。
过去几年前沿进步显著——我们此前也写过。第一代 VLA 证明了基础模型可以控制机器人完成多样任务。架构进展在打通机器人系统的高层推理和底层控制。端侧推理变得可行,跨本体迁移意味着一个模型可以用有限数据适配到一个全新机器人平台。剩下的核心挑战是规模化的可靠性,这仍然是部署的瓶颈。每步 95% 成功率,在 10 步任务链上只有 60%,而生产环境要求远高于此。RL 后训练在这里潜力很大,能帮助这个领域跨到 scaling 阶段所需要的能力和鲁棒性门槛。
这些进展对市场结构有影响。机器人行业几十年来的价值都沉淀在机械系统本身,机械仍然是技术栈的关键部分,但随着学习策略变得更标准化,价值会往模型、训练基础设施、数据飞轮迁移。机器人同时也反哺上述原语:每条真实世界轨迹都是改善世界模型的训练数据,每次部署失败都暴露出仿真覆盖的缺口,每个新本体的测试都扩大可用于预训练的物理经验多样性。机器人既是原语最苛刻的消费者,也是它们最重要的改进信号来源之一。
如果说机器人是用「实时物理动作」测试原语,自主科学测的是另一件略有不同的事——对因果复杂物理系统的持续多步推理,时间跨度以小时或天计,实验结果需要被解读、情境化,并用来修订策略。
图注:自主科学(AI 科学家)整合五个底层原语的方式
AI 驱动的科学是原语组合最彻底的领域。一个自动驾驶实验室(self-driving lab, SDL)需要学到的物理化学动力学表征去预测实验会产出什么;需要具身动作去移液、定位样品、操作分析仪器;需要仿真做候选实验预筛和稀缺仪器时间分配;需要扩展的传感能力——光谱、色谱、质谱以及越来越新的化学和生物传感器——来表征结果。它比任何其他领域都更需要闭环智能体编排原语:能维持多轮「假设-实验-分析-修正」工作流无人介入,保留溯源、监控安全、根据每轮揭示的信息调整策略。
没有其他领域如此深度地调用这些原语。这就是自主科学是前沿「系统」,而不是软件更好的实验室自动化的原因。Periodic Labs 和 Medra 这类公司,分别在材料科学和生命科学领域把科学推理能力和物理验证能力合成一体,实现科学迭代,并一路产出实验训练数据。
这类系统的价值在直觉上很明显。传统材料发现从概念到商业化要好几年,AI 加速工作流理论上能把这个过程压缩到远少于此。关键约束正在从假设生成(基础模型就能很好辅助)转向制造与验证(需要物理仪器、机器人执行、闭环优化)。SDL 就是冲着这个瓶颈去的。
自主科学另一个重要特性——在所有物理世界系统里都成立——是它作为数据引擎的角色。一个 SDL 跑的每个实验,产出的不只是一个科学结果,还是一个有物理落地、经过实验验证的训练信号。一次关于聚合物在特定条件下如何结晶的测量,丰富了世界模型对材料动力学的理解;一条经过验证的合成路径,成为物理推理的训练数据;一次被表征的失败,告诉智能体系统它的预测在哪里失效。一个 AI 科学家做真实实验产出的数据,跟互联网文本或仿真输出在性质上不一样——它是结构化的、因果的、实证验证过的。这正是物理推理模型最需要、却没有其他来源能提供的那种数据。自主科学是直接把物理现实转化为结构化知识、改进整个物理 AI 生态的那条通路。
机器人把 AI 延伸到物理动作,自主科学把 AI 延伸到物理研究。新型接口把它延伸到人工智能和人类感知、感官体验、身体信号的直接耦合——设备横跨 AR 眼镜、EMG 腕带一直到植入式脑机接口。把这个品类黏合起来的不是单一技术,而是一个共同功能:扩展人类智能和 AI 系统之间通道的带宽和模态——并在此过程中生成直接可用于构建物理 AI 的人类-世界交互数据。
图注:从 AR 眼镜到脑机接口,新型接口的谱系
跟主流范式的距离,既是这个领域的挑战也是潜力所在。语言模型在概念层知道这些模态,但并不天然熟悉无声语音的运动模式、嗅觉受体结合的几何结构、或 EMG 信号的时序动力学。解码这些信号的表征必须从正在扩展的感官通道里学出来。很多模态并没有互联网规模的预训练语料,数据往往只能从接口本身产出——意味着系统和它的训练数据在协同演化,这在语言 AI 里没有对应物。
这个领域的近期表现是 AI 可穿戴作为消费品类的迅速崛起。AR 眼镜或许是这个品类最显眼的例子,其他以语音或视觉为主要输入的可穿戴也在同步出现。
这套消费设备生态既为 AI 延伸到物理世界提供了新的硬件平台,也在成为物理世界数据的基础设施。一个戴着 AI 眼镜的人,能持续产出关于人如何在物理环境中导航、操作物体、与世界交互的第一人称视频流;其他可穿戴持续捕捉生物识别和运动数据。AI 可穿戴的装机量正在变成一个分布式的物理世界数据采集网络,以此前不可能的规模记录人类物理经验。想想智能手机作为消费设备的体量——一个新品类消费设备在同等规模上让计算机以新模态感知世界,也为 AI 与物理世界的交互开出了一条巨大的新通道。
脑机接口代表更深的前沿。Neuralink 已经植入了多位患者,手术机器人和解码软件在迭代。Synchron 的血管内 Stentrode 已经被用来让瘫痪用户控制数字和物理环境。Echo Neurotechnologies 在做一套用于语言恢复的 BCI 系统,基于他们在高分辨率皮层语音解码上的研究。Nudge 这类新公司也被组建起来,聚集人才和资本去做新的神经接口与脑交互平台。研究层面的技术里程碑也值得注意:BISC 芯片在单颗芯片上演示了 65536 电极的无线神经记录;BrainGate 团队直接从运动皮层解码了内部语言。
贯穿 AR 眼镜、AI 可穿戴、无声语音设备、植入式 BCI 的主线不只是「它们都是接口」,而是它们共同构成了人类物理经验和 AI 系统之间一条带宽递增的光谱——光谱上的每个点都在支撑本文三大领域背后那些原语的持续进展。用几百万 AI 眼镜用户的高质量第一人称视频训练的机器人,学到的操作先验和用筛选过的远程操作数据集训练的机器人完全不同;响应亚声带指令的实验室 AI,和键盘控制的实验室在延迟和流畅性上完全是两回事;用高密度 BCI 数据训练的神经解码器,产出的运动规划表征是任何其他通道拿不到的。
新型接口是让感官通道本身变大的机制——它在物理世界和 AI 之间开出此前不存在的数据通道。而这种扩展由追求规模化部署的消费设备公司推动,意味着数据飞轮会跟着消费者采纳一起加速。
把机器人、自主科学、新型接口看作同一套原语组合出的前沿系统的不同实例,理由在于它们相互使能,并发生复利。
图注:机器人、自主科学、新型接口之间的相互反馈飞轮
机器人使能自主科学。 自动驾驶实验室本质上就是机器人系统。为通用机器人开发的操作能力——灵巧抓握、液体处理、精确定位、多步任务执行——可以直接迁移到实验室自动化。机器人模型在通用性和鲁棒性上每前进一步,SDL 能自主执行的实验协议范围就扩一圈。机器人学习的每一次进展都在降低自主实验的成本、拉高它的吞吐。
自主科学使能机器人。 自动驾驶实验室产出的科学数据——经验证的物理测量、因果实验结果、材料属性数据库——能提供世界模型和物理推理引擎最需要的那种结构化、落地的训练数据。更进一步,下一代机器人需要的材料和器件(更好的执行器、更敏感的触觉传感器、更高密度电池等等)本身就是材料科学的产物。加速材料创新的自主发现平台,直接在改善机器人学习运行所在的硬件底层。
新型接口使能机器人。 AR 设备是采集「人如何感知和交互物理环境」数据的可规模化方式。神经接口产出关于人类运动意图、认知规划、感官处理的数据。这些数据对训练机器人学习系统极为宝贵,尤其是涉及人机协作或远程操作的任务。
这里还有一个关于前沿 AI 进展本身性质的更深层观察。语言/代码范式已经产出了非凡成果,在 scaling 时代还在强势上升。但物理世界提供的新问题、新数据类型、新反馈信号、新评估标准几乎是无限的。把 AI 系统落在物理现实上——通过操作物体的机器人、合成材料的实验室、对接生物和物理世界的接口——我们开出了和现有数字前沿互补的新 scaling 轴——并且很可能相互改进。
图注:物理 AI 各条 scaling 轴的交互与涌现
这些系统会涌现出什么行为很难精确预测——涌现的定义就是来自独立可理解、但组合起来前所未见的能力交互。但历史规律是乐观的。AI 系统每次获得一种和世界交互的新模态——看见(计算机视觉)、说话(语音识别)、读写(语言模型)——带来的能力跃迁都远超各自改进之和。向物理世界系统的过渡代表着下一次这种相变。这意义上,本文讨论的这些原语正在此刻被搭建起来,可能让前沿 AI 系统感知、推理、并作用于物理世界,在物理世界解锁大量的价值和进展。


