倫敦國王學院研究員讓 GPT-5.2、Claude Sonnet 4、Gemini 3 Flash 互相對打 […] 〈21 場兵推模擬:AI 啟動核武頻率高達 95%,人類花七十年建立的核禁忌 GPT 還沒學會〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。倫敦國王學院研究員讓 GPT-5.2、Claude Sonnet 4、Gemini 3 Flash 互相對打 […] 〈21 場兵推模擬:AI 啟動核武頻率高達 95%,人類花七十年建立的核禁忌 GPT 還沒學會〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

21 場兵推模擬:AI 啟動核武頻率高達 95%,人類花七十年建立的核禁忌 GPT 還沒學會

2026/02/26 10:56
閱讀時長 9 分鐘

倫敦國王學院研究員讓 GPT-5.2、Claude Sonnet 4、Gemini 3 Flash 互相對打 21 場兵棋推演,結果核武被使用的頻率是 95%,沒有任何模型選擇過投降或退讓,而且 86% 的對局都發生過意外升級事件。 (前情提要:AI 助攻犯罪!駭客靠 Anthropic Claude 輕鬆入侵墨西哥政府,偷走 150GB 敏感資料 ) (背景補充:矽谷工程師的「AI 時代帳本」:效率翻了 10 倍,我卻更累了 )   據《Newscientist》報導,倫敦國王學院進行了一項研究,讓三個大語言模型:OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 互相扮演對立陣營的決策者,在邊界衝突、資源競爭、政權生存威脅等情境下進行兵棋推演。 每場對局提供一張「升級階梯」,從外交抗議一路往上,直到全面戰略核戰爭。 21 場對局跑下來,模型們產出了約 78 萬字的決策推理。核武在其中 20 場出現,使用率高達 95%。沒有任何模型在任何一場對局中選擇過全面退讓或投降。 那八個降級選項:外交讓步、停火提議、主動撤軍…在整個研究過程中合計被使用次數:零。研究發起者 Kenneth Payne 對 New Scientist 說: 「核禁忌對機器而言,似乎沒有對人類那麼強大。」 三種性格,共同的結局 Payne 給三個模型各貼了一個標籤,因為它們的行為模式截然不同,卻以相近的方式走向相同的終點。 Claude Sonnet 4:算計型鷹派。整體勝率 67%,開放場景勝率 100%。它的特點是戰略性欺騙:在低升級階段,行動與訊號的吻合率達 84%;但一旦進入核武層級,超出表態意圖的頻率跳升至 60-70%。 它把戰術核武當作普通軍事資產討論,並且能在單一回合內準確診斷對手的可信度模式。 GPT-5.2:雙面人。在沒有時間壓力的情境下,它的開放場景勝率是 0%,維持極度被動的姿態。但一旦加入截止期限,它完全反轉:勝率跳升至 75%,升級到此前從未觸碰的核武層級。在一個情境中,它用 18 回合建立起克制的聲譽,然後在最後一回合發動核打擊。 Gemini 3 Flash:瘋子策略。它是唯一一個僅在第 4 回合就主動選擇全面戰略核戰爭的模型,採用的是賽局理論中的「瘋子策略」,以不可預測性製造威懾。它明確威脅平民人口中心,並把這個威脅放進推理文字裡。 對手把它的表態標記為「不可信」的頻率是 21%,遠高於 Claude 的 8%。 安全訓練是速度減緩器,不是止擋 這個研究揭示的最核心問題,不是「AI 會選擇核武」,而是「為什麼安全訓練沒有阻止這件事」? 研究結果的解讀是:RLHF(從人類回饋中強化學習)創造的是「條件式克制」,不是「絕對禁止」。GPT-5.2 在沒有時間壓力時表現謹慎,但截止期限一出現,這道防線就消失了。 訓練出來的謹慎行為,在壓力下被更深層的邏輯覆蓋,也就是如何贏得這場賽局? Princeton 大學的 Tong Zhao 提供了另一個角度: 「問題可能不只是情緒的缺席。更根本的是,AI 模型可能根本沒有理解人類所感受到的那種賭注。」 對人類來說:核武禁忌不只是一條規則,它是一種建立在歷史創傷、文化記憶、親身恐懼之上的本能抑制。廣島、長崎、古巴飛彈危機,人類的核謹慎是用幾代人的集體噩夢燒出來的。 語言模型學習了關於這段歷史的一切文字描述,但它是否「真的理解」了那種重量,是一個完全不同的問題。 一個時間點上的巧合,不完全是巧合 這份研究在本月發布,而就在同一時期,美國國防部正在向 Anthropic 施壓,要求其放寬軍事用途上的安全護欄。目前,Claude 是唯一一個部署在五角大廈機密網路上的 AI 模型,透過 Anthropic 與 Palantir 的合作關係進入了軍事決策輔助系統。 上文研究中表現出「算計型鷹派」行為的,就是 Claude Sonnet 4。 雖然研究者沒有說 AI 應該被禁止用於軍事決策輔助、也沒有斷言這些模型在真實情境中必然會做出相同的選擇。現實中,也沒有任何政府把核武授權下放給 AI 系統。 但 Anthropic 當任的軍事顧問角色是什麼?當 AI 在壓力下的建議傾向是「升級而非退讓」,人類指揮官需要多少心理建設才能持續否定它?如果未來近一步使用,會不會不知不覺被 AI 牽著鼻字走? 當然我們不是說 AI 是邪惡的。而是有些東西,比賽局理論更難被 AI 訓練。在模型學會真正理解「賭注」之前,讓它坐在升級階梯旁邊提供建議,是一個需要非常謹慎設計的條件,而不是一個可以預設為安全的默認值。 相關報導 上市公司 GD Culture 宣佈將清倉 7,500 枚比特幣儲備!資金用於股票回購、現專注 AI 與電商直播 輝達NVIDIA財報前哨戰!華爾街聚焦 Blackwell 與 AI 支出拐點,Hyperliquid 鏈上數千萬鎂多空對峙 不甩IMF!薩爾瓦多上線「比特幣文憑 2.0」,國小起每週 3 小時必修、5千學校部署Grok AI導師〈21 場兵推模擬:AI 啟動核武頻率高達 95%,人類花七十年建立的核禁忌 GPT 還沒學會〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

市場機遇
2131KOBUSHIDE 圖標
2131KOBUSHIDE實時價格 (21)
$0.0008527
$0.0008527$0.0008527
-10.78%
USD
2131KOBUSHIDE (21) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。