從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭,一個讓 AI 知識「流動」的技術,如何改變了整個產 […] 〈AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭,一個讓 AI 知識「流動」的技術,如何改變了整個產 […] 〈AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事

2026/04/05 17:21
閱讀時長 10 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 [email protected] 聯絡我們。
從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭,一個讓 AI 知識「流動」的技術,如何改變了整個產業的成本結構與地緣競爭格局。 (前情提要:Claude Code 新增雲端定時任務:不用開電腦,AI 自動幫你審 PR、升級依賴) (背景補充:Cursor 用 Kimi K2.5 訓模型卻沒說,開發者抓包、刪推、官方急轉彎全紀錄)   最近你在網路上,尤其是中國的AI 社群上,可以看到越來越多「蒸餾模型」宣傳效能堪比最新的頂尖大模型。DeepSeek、Moonshot AI 與 MiniMax…這些公司幾乎以每月一個的速度,將蒸餾過後的模型,以極低成本複製後推出。 快速演變的背後,也引發了 AI 界最激烈的道德爭議之一。Anthropic 近期就指控上述三家公司「竊取」Claude 的知識;OpenAI 也向美國立法者提交公開信,要求立法限制。 但這場圍堵,可能比你想像中的要困難。 蒸餾的本質是觀察與學習,而不是複製與竊取。你無法起訴一個學生「看了太多老師的解題過程」。更何況,蒸餾所需要的,只是一台電腦、一批問題、和足夠多的耐心:這三樣東西,中國的 AI 實驗室從來不缺。當技術門檻低到任何有算力的團隊都能執行,監管能做的,頂多是讓這件事變得更貴一點、更慢一點。知識的流動,很難被一紙禁令攔住。 要理解這是怎麼做到的?我們必須先回到 2015 年的一篇論文。 老師的暗知識 2015 年,Google 的三位研究者:Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean,發表了一篇名為《Distilling the Knowledge in a Neural Network》(蒸餾神經網路中的知識)的論文。 它提出了一個看似簡單的問題:一個大型 AI 模型,究竟「知道」什麼? 傳統的機器學習訓練,是讓模型學會「給出正確答案」。你給模型看一張貓的照片,它輸出「貓:99%,狗:1%」,訓練的目標就是讓這個 99% 更高、更準確。這叫做「硬標籤」(hard labels)訓練。 但 Hinton 注意到了一件事:大型模型在輸出「貓:99%」的同時,也輸出了「狗:0.7%、老虎:0.2%、獅子:0.1%」。 這些幾乎為零的小數字,看起來沒什麼用。但它們其實包含了大量的資訊:這個模型「知道」貓和老虎之間有某種相似性,貓和香蕉之間幾乎沒有相似性。這些隱藏在機率分佈裡的知識,Hinton 稱之為「暗知識」(dark knowledge)。 翻譯過來就是:大模型不只學會了「答案是什麼」,它還學會了答案之間的關係是什麼。而這些關係,才是真正有價值的知識。 模型蒸餾的核心,就是把這個「暗知識」從一個大模型(老師),傳遞給一個小模型(學生)。 老師不再告訴學生「這是貓」,而是告訴學生「這 99% 像貓、0.7% 像狗、0.2% 像老虎」。學生從這些「軟標籤」(soft labels)中學習,吸收的資訊遠遠多於直接從正確答案中學習。 結果是:學生模型的體積遠小於老師,但它繼承了老師對世界的理解方式。 溫度越高,知識越多 但要讓暗知識真正「流動」起來,還有一個關鍵機制:溫度縮放(temperature scaling)。 在標準的 AI 輸出中,模型使用 softmax 函數把內部計算值轉換成機率分佈。 低溫度下,輸出會非常「尖銳」:最可能的答案機率接近 100%,其他選項接近 0 高溫度下,輸出會變得「平滑」:各種可能的答案都有一定的機率,分佈更加均勻 Hinton 的洞察是:在蒸餾訓練時,把溫度調高。這讓老師模型輸出更豐富的軟標籤,讓暗知識得以充分展露;等訓練完成、學生模型部署時,再把溫度降回來,讓它輸出精確的答案。 這個「訓練時高溫、推論時低溫」的機制,是蒸餾有效運作的技術核心。 用一個類比來說:老師教學生的時候,不是直接說「答案是 A」,而是詳細解釋「A、B、C 之間的差異,以及為什麼在這個情況下 A 更合適」。學生理解了背後的邏輯,而不只是記住了答案。 這個框架,從 2015 年提出後,在 AI 產業逐漸普及。OpenAI 的 GPT-4o Mini、Meta 的 Llama 蒸餾版本、Google 的 Gemini Flash…都是這套邏輯的延伸。 而真正把蒸餾技術發揮到極致的,是 DeepSeek。 DeepSeek 的算盤 DeepSeek 在 2025 年發佈的 R1 模型,是一個 6,710 億(671B)參數的混合專家模型。這是一個大到必須用數百張高階 GPU 才能運行的模型。 但 DeepSeek 同時發佈了一系列「蒸餾版本」:從 1.5B 到 70B 參數不等,七個大小不同的模型,全部是從 R1 蒸餾而來的學生模型。 結果令業界震驚。 DeepSeek 蒸餾出的 7B 模型,在數學推理基準測試上擊敗了 OpenAI 的 o1-mini。DeepSeek-R1-Distill-Qwen-32B,在多項基準上超越了 OpenAI o1。一個 320 億參數的學生,擊敗了由更大模型支撐的競爭對手。 而 DeepSeek-R1 的 API 定價,是每百萬 token 輸入 0.55 美元、輸出 2.19 美元;相比之下,GPT-4o 的定價是 2.50 美元 / 10 美元。差距接近 4 倍。翻譯過來就是: 蒸餾讓 AI 的知識成本急劇降低。你不需要花 1 億美元訓練出一個 1,000 億參數的大模型,你只需要找到一個更聰明的老師,然後讓學生把它的暗知識吸收乾淨。 這是兩種完全不同的 AI 開發哲學。 OpenAI、Anthropic 的邏輯是:用最多的算力、最多的資料、最多的錢,訓練出最聰明的大腦,然後透過 API 把它租給全世界。他們的護城河,是「我的老師比你的老師更聰明」。 DeepSeek 的邏輯是:找到最聰明的老師,然後把它的知識最大化地壓縮進盡可能小的學生,讓任何人都能以最低成本部署。他們的護城河,是「我的蒸餾效率比你更高」。 這個邏輯上...
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!