企业AI中存在一个几乎无人讨论的问题——而它即将重塑整个市场。
过去几年,AI进步一直基于一个核心假设:更多数据带来更好的结果。但在2026年,这个假设开始瓦解。不是因为数据不够,而是因为可用于训练的高质量、真实世界信号不足。

我们正在进入我所称的AI数据崩溃阶段:新数据的边际价值正在下降,合成数据正在涌入生态系统,企业在不知不觉中用越来越多递归的AI生成输入来训练模型。
在Ramsey Theory Group,我们在服务的各个行业中看到了这一趋势的早期迹象——从医疗保健到物流再到汽车零售。其影响远比大多数企业意识到的更严重。
合成数据反馈循环的崛起
生成式AI的爆发创造了一个悖论:AI系统现在产生的内容比人类还多。
这些内容——文本、图像、代码、决策——越来越多地被反馈到训练管道中。随着时间推移,这创造了合成反馈循环,模型不是从现实中学习,而是从先前的模型输出中学习。
这导致了一个微妙但危险的效应:模型偏向于不反映真实世界条件的人工模式。
在企业环境中,这表现为:
- 预测模型在测试中表现良好但在生产中失败
- 客户行为模型过度拟合"平均"合成模式
- 决策系统逐渐失去边缘案例敏感性
这不是理论风险——它已经在发生。
为什么更多数据不再是答案
历史上,当模型表现不佳时,解决方案很简单:添加更多数据。
这个策略不再有效。
企业现在面临三个新约束:
1) 信号稀释 – 大规模数据集的真实世界相关性下降
2) 数据污染 – AI生成输入的未知比例
3) 来源不确定性 – 无法验证数据来源
这意味着仅扩大数据量可能会降低模型性能。
相反,竞争优势正在转向数据策展、验证和血统追踪。
能够识别和保留高完整性数据管道的组织将大大优于依赖蛮力规模的组织。
"数据真实性"作为竞争护城河的出现
当前正在发生的最重要——也最被低估——的转变之一是数据真实性作为战略资产的崛起。
很快,企业不仅要在模型或基础设施上竞争——他们将在证明其数据的能力上竞争:
- 基于真实世界
- 免受合成污染
- 持续验证
这在以下领域尤为关键:
- 医疗保健,临床决策取决于真实患者结果
- 物流,预测系统必须反映真实世界的变化
- 汽车零售,客户意图信号驱动收入
在Ramsey Theory Group,我们已经看到客户将数据血统追踪和验证层优先作为其AI战略的核心组成部分——而不是事后想法。
代理AI将加速这个问题
代理AI系统的崛起——能够在工作流程中行动、决策和生成输出的自主系统——将大大加速数据崩溃动态。
AI代理采取的每一个行动都会创建新数据。
每一份数据都可以重新进入系统。
如果没有保障措施,这将创建闭环生态系统,AI越来越多地训练自己——脱离真实世界的基本事实。
这是许多企业会犯下的关键错误:在没有建立严格数据边界的情况下部署代理系统。
下一个前沿:信号工程
为了解决这个问题,企业需要从数据工程转向我所称的信号工程。
这包括:
- 主动过滤高价值、真实世界信号
- 设计优先考虑数据完整性而非数量的管道
- 持续审计数据集是否存在合成污染
- 创建与真实世界结果相关的反馈机制
在实践中,这意味着:
- 在医疗保健中,重视临床结果而非生成摘要
- 在物流中,优先考虑真实运输变化而非模拟场景
- 在建筑和现场服务中,将模型建立在实际运营数据上
这是AI系统构建方式的根本转变——它将区分领导者和落后者。
市场调整即将到来
AI市场正朝着调整的方向发展:不是在投资方面,而是在期望方面。
基于无限高质量数据假设构建战略的公司将陷入困境。模型将进入平台期。性能提升将放缓。ROI将更难证明。
与此同时,新一类企业领导者将出现——那些理解AI的未来不在于更多数据,而在于更好信号的人。
无人计入的隐形风险
现在,大多数企业AI路线图没有考虑数据崩溃。与此同时,企业正在做出许多假设,包括:
- 模型将随着规模继续改进
- 合成数据是安全的补充
- 更多自动化将始终带来更好的结果
所有这些假设即将受到考验。AI的下一个时代不会由谁拥有最多数据来定义。它将由谁仍然可以信任它来定义。而这可能成为企业技术中最有价值的资产。
Dan Herbatschek是一位数学家和技术企业家,是Ramsey Theory Group的首席执行官兼创始人——一家总部位于纽约的私人控股技术控股和创新公司,在洛杉矶、新泽西和法国巴黎设有业务。该公司为汽车零售、医疗保健、创意和现场服务开发企业技术系统。在LinkedIn上与他联系。








