当互联网上通常不可见的部分突然出现故障时,世界其他地方很快就会注意到。这一点在11月18日变得明显,当时互联网基础设施公司Cloudflare发生的广泛宕机导致错误信息在无数网站上闪现,包括Google(及其各种相关服务)、X、ChatGPT等,持续了三个多小时。
最终,一个常规软件错误被认为是此次事件的罪魁祸首,Cloudflare的公关团队声称一个内部配置文件比预期增长得更大,导致处理公司流量的关键系统崩溃。到了下午,修复已经实施,并发布了公开道歉。然而,这一事件引发了更广泛的反思,去中心化计算市场Argentum AI的CEO Andrew Sobko强调:
Cloudflare宕机期间ChatGPT用户收到的错误信息
然而Cloudflare只是最新倒下的多米诺骨牌,此前AWS在10月20日遭遇了多小时的中断,路由和DNS问题迫使数百万用户面临连接质量下降。不到十天后,Microsoft的Azure Front Door也经历了全球性故障,一个部署在共享前门层的错误配置规则导致大量托管应用程序的流量被错误路由/阻止,持续了大约八小时。
经济分析估计,该事件造成了48亿至160亿美元的直接和间接损失,这还不包括各种银行、物流网络、公共部门门户和企业SaaS工具遭受的生产力延迟和交易失败。事实上,AWS和Azure的宕机似乎为Cloudflare的崩溃铺平了道路,长期以来被视为孤立事件的情况很快开始呈现出一种模式。
甚至特斯拉和X的所有者埃隆·马斯克,他曾公开嘲笑AWS在其宕机期间,吹嘘他的社交平台在没有亚马逊云基础设施的情况下运行良好,本周当X本身被击落时不得不咬紧舌头,证明绕过一个巨头并不能使平台免受其他地方宕机的影响。
无论如何,这些接连发生的事件表明,传统的中心化云服务模式,尽管有其便利性,但存在固有风险,因为当如此多的在线活动依赖于少数几家公司的基础设施时,即使是潜在的错误或错误配置也可能触发大规模中断。
面对这些宕机暴露出的裂缝,科技社区越来越多地寻找消除此类单点故障的方法。一个新兴的答案是将云计算的概念去中心化,这样,不是通过少数超级中心提供商来传输世界各地的网站和应用程序,而是将负载分布在许多独立节点上。
这正是Argentum AI带来的愿景。作为一个开放的、以人为本的计算能力市场,它将计算能力转变为全球共享资源,连接需要处理能力的人和组织与那些有额外能力提供的人(类似于闲置GPU和服务器的Airbnb)。
详细来说,Argentum提供了一个去中心化的实时竞价网络,计算任务公开发布,多个提供商竞争执行它们。这种方法用许多提供商组成的透明市场取代了对任何单一云供应商的依赖,所有提供商都在争相以有竞争力的价格提供能力。
这也意味着,如果一个数据中心或节点离线,其他节点随时准备接手,因为工作负载会动态路由到网络中有足够容量的任何地方。因此,单点故障的概念被从系统中设计出去,任何故障都意味着任务可以在提供商联合云的其他地方运行。
除了弹性外,Argentum AI的市场还带来了其他好处,成本效益就是一个主要例子。这是因为传统的超大规模服务商要求客户预留大块的服务器或GPU时间(通常为闲置容量付费),而Argentum的网络则利用了分布在世界各地的已经闲置的硬件。
通过解锁这种潜在的计算能力,该平台与传统云相比降低了计算作业的价格。每个任务、出价和结果都记录在开放的区块链账本上,确保价格和性能的完全透明。
总之,该模型将计算能力视为一种流动商品,如果一个地区的资源耗尽,市场会在其他地方找到资源。这种灵活性不仅加速了项目开发,还使高端处理能力的获取民主化,防止小型公司和组织被主要云提供商定价过高或优先级降低。
随着云计算时代进入新阶段,问题是基础设施的未来是否会继续集中在少数庞大的孤岛中,还是分布在许多手中。如果说2025年的宕机有什么启示的话,那就是即使是最强大的科技巨头也并非万无一失。
作为回应,像Argentum AI这样的平台开创了一种不同的愿景,重新构想我们如何分配和访问计算能力。随着这一愿景获得牵引力,明天的互联网将变得更具弹性和公平性。事实上,下一次Cloudflare或AWS出现问题时,用户可能甚至不会感觉到,因为工作负载已经转移到了其他地方。


