從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭，一個讓 AI 知識「流動」的技術，如何改變了整個產 […] 〈AI 模型蒸餾是什麼？DeepSeek 如何花 600 萬，學走 1 億的本事〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭，一個讓 AI 知識「流動」的技術，如何改變了整個產 […] 〈AI 模型蒸餾是什麼？DeepSeek 如何花 600 萬，學走 1 億的本事〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

AI 模型蒸餾是什麼？DeepSeek 如何花 600 萬，學走 1 億的本事

來源：Blocktempo ZH

2026/04/05 17:21

閱讀時長 10 分鐘

如需對本內容提供反饋或相關疑問，請通過郵箱 [email protected] 聯絡我們。

從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭，一個讓 AI 知識「流動」的技術，如何改變了整個產業的成本結構與地緣競爭格局。（前情提要：Claude Code 新增雲端定時任務：不用開電腦，AI 自動幫你審 PR、升級依賴）（背景補充：Cursor 用 Kimi K2.5 訓模型卻沒說，開發者抓包、刪推、官方急轉彎全紀錄）最近你在網路上，尤其是中國的AI 社群上，可以看到越來越多「蒸餾模型」宣傳效能堪比最新的頂尖大模型。DeepSeek、Moonshot AI 與 MiniMax…這些公司幾乎以每月一個的速度，將蒸餾過後的模型，以極低成本複製後推出。快速演變的背後，也引發了 AI 界最激烈的道德爭議之一。Anthropic 近期就指控上述三家公司「竊取」Claude 的知識；OpenAI 也向美國立法者提交公開信，要求立法限制。但這場圍堵，可能比你想像中的要困難。蒸餾的本質是觀察與學習，而不是複製與竊取。你無法起訴一個學生「看了太多老師的解題過程」。更何況，蒸餾所需要的，只是一台電腦、一批問題、和足夠多的耐心：這三樣東西，中國的 AI 實驗室從來不缺。當技術門檻低到任何有算力的團隊都能執行，監管能做的，頂多是讓這件事變得更貴一點、更慢一點。知識的流動，很難被一紙禁令攔住。要理解這是怎麼做到的？我們必須先回到 2015 年的一篇論文。老師的暗知識 2015 年，Google 的三位研究者：Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean，發表了一篇名為《Distilling the Knowledge in a Neural Network》（蒸餾神經網路中的知識）的論文。它提出了一個看似簡單的問題：一個大型 AI 模型，究竟「知道」什麼？傳統的機器學習訓練，是讓模型學會「給出正確答案」。你給模型看一張貓的照片，它輸出「貓：99%，狗：1%」，訓練的目標就是讓這個 99% 更高、更準確。這叫做「硬標籤」（hard labels）訓練。但 Hinton 注意到了一件事：大型模型在輸出「貓：99%」的同時，也輸出了「狗：0.7%、老虎：0.2%、獅子：0.1%」。這些幾乎為零的小數字，看起來沒什麼用。但它們其實包含了大量的資訊：這個模型「知道」貓和老虎之間有某種相似性，貓和香蕉之間幾乎沒有相似性。這些隱藏在機率分佈裡的知識，Hinton 稱之為「暗知識」（dark knowledge）。翻譯過來就是：大模型不只學會了「答案是什麼」，它還學會了答案之間的關係是什麼。而這些關係，才是真正有價值的知識。模型蒸餾的核心，就是把這個「暗知識」從一個大模型（老師），傳遞給一個小模型（學生）。老師不再告訴學生「這是貓」，而是告訴學生「這 99% 像貓、0.7% 像狗、0.2% 像老虎」。學生從這些「軟標籤」（soft labels）中學習，吸收的資訊遠遠多於直接從正確答案中學習。結果是：學生模型的體積遠小於老師，但它繼承了老師對世界的理解方式。溫度越高，知識越多但要讓暗知識真正「流動」起來，還有一個關鍵機制：溫度縮放（temperature scaling）。在標準的 AI 輸出中，模型使用 softmax 函數把內部計算值轉換成機率分佈。低溫度下，輸出會非常「尖銳」：最可能的答案機率接近 100%，其他選項接近 0 高溫度下，輸出會變得「平滑」：各種可能的答案都有一定的機率，分佈更加均勻 Hinton 的洞察是：在蒸餾訓練時，把溫度調高。這讓老師模型輸出更豐富的軟標籤，讓暗知識得以充分展露；等訓練完成、學生模型部署時，再把溫度降回來，讓它輸出精確的答案。這個「訓練時高溫、推論時低溫」的機制，是蒸餾有效運作的技術核心。用一個類比來說：老師教學生的時候，不是直接說「答案是 A」，而是詳細解釋「A、B、C 之間的差異，以及為什麼在這個情況下 A 更合適」。學生理解了背後的邏輯，而不只是記住了答案。這個框架，從 2015 年提出後，在 AI 產業逐漸普及。OpenAI 的 GPT-4o Mini、Meta 的 Llama 蒸餾版本、Google 的 Gemini Flash…都是這套邏輯的延伸。而真正把蒸餾技術發揮到極致的，是 DeepSeek。 DeepSeek 的算盤 DeepSeek 在 2025 年發佈的 R1 模型，是一個 6,710 億（671B）參數的混合專家模型。這是一個大到必須用數百張高階 GPU 才能運行的模型。但 DeepSeek 同時發佈了一系列「蒸餾版本」：從 1.5B 到 70B 參數不等，七個大小不同的模型，全部是從 R1 蒸餾而來的學生模型。結果令業界震驚。 DeepSeek 蒸餾出的 7B 模型，在數學推理基準測試上擊敗了 OpenAI 的 o1-mini。DeepSeek-R1-Distill-Qwen-32B，在多項基準上超越了 OpenAI o1。一個 320 億參數的學生，擊敗了由更大模型支撐的競爭對手。而 DeepSeek-R1 的 API 定價，是每百萬 token 輸入 0.55 美元、輸出 2.19 美元；相比之下，GPT-4o 的定價是 2.50 美元 / 10 美元。差距接近 4 倍。翻譯過來就是：蒸餾讓 AI 的知識成本急劇降低。你不需要花 1 億美元訓練出一個 1,000 億參數的大模型，你只需要找到一個更聰明的老師，然後讓學生把它的暗知識吸收乾淨。這是兩種完全不同的 AI 開發哲學。 OpenAI、Anthropic 的邏輯是：用最多的算力、最多的資料、最多的錢，訓練出最聰明的大腦，然後透過 API 把它租給全世界。他們的護城河，是「我的老師比你的老師更聰明」。 DeepSeek 的邏輯是：找到最聰明的老師，然後把它的知識最大化地壓縮進盡可能小的學生，讓任何人都能以最低成本部署。他們的護城河，是「我的蒸餾效率比你更高」。這個邏輯上...

只要一分鐘，20 USDT 免費拿！

充值 $100，多拿 $300 GOLD 倉位！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。