劉潤：DeepSeek這把火，為何燒疼了矽谷？

很多人在後臺給我留言，要我講講DeepSeek。這大過年的。本來想睡個懶覺。然後看個電影。然後再睡個懶覺。然後再看個電影。什麼也不想寫。但是但是但是，DeepSeek實在是太火了。

火到什麼程度呢？

美國的一把山林大火，幾個星期燒掉了加州2500億美元。而DeepSeek橫空出世，納斯達克大跌3%，瞬間燒掉了5000多億。什麼概念？如果把這5000多億換成百元美刀，用飛機來運到焚燒廠去燒，需要87架滿載的空客380。

美國人嚇壞了。

可是，DeepSeek這把火，為何燒疼了矽谷？DeepSeek，到底厲害在什麼地方？他被高估了嗎？有人指責DeepSeek“偷竊”，是真的嗎？

今天。我們就來聊聊這件事。從哪裡開始呢？就從美國人為什麼這麼怕開始。這種怕，源於心中的一根刺。一根針不能碰，一碰就疼的針。

這根刺的名字叫：斯普特尼克時刻。

1957年10月的一天，很多美國人走出家門，驚恐地望向天空。他們聽說，（前）蘇聯人發了一顆“籃球”上天，繞著地球飛行。時速29000公里。他們試著用肉眼，尋找這顆不斷在他們頭頂上繞圈的“籃球”。

這顆“籃球”的名字，就叫斯普特尼克（sputnik）。它當然不是籃球。它是一顆人造衛星。

人類歷史上第一顆人造衛星。

人類歷史上第一顆人造衛星，“居然”不是自己發射的。美國人很難接受。你能想象嗎？這就像連續三年的全年級第一，突然發現清華唯一提前錄取的，不是自己。

斯普特尼克號衛星，就像一根刺一樣，扎痛了那一代美國人。

然後，美國正式成立了NASA（美國航天局），並舉國之力完成了登月。這才拔掉了心頭那根叫“斯普特尼克”的刺。

68年後的今天，DeepSeek讓美國人看到了另一個“斯普特尼克”時刻。

大模型屆的拼多多

你試過DeepSeek了嗎？

趕快去試試。真不錯。推理能力，直逼OpenAI的ChatGPT o1。而且，不用翻牆。不用美國信用卡。也不用擔心，因為不慎被發現是中國使用者，而被系統“歧視性”封號。太揚眉吐氣了。

但這都不是最重要的。最重要的是：DeepSeek實在是太太太便宜了。

ChatGPT o1完成一次訓練的成本，據說要上億美金。而DeepSeek，只需要不到600萬美金。

1/20。便宜到不敢相信。

這就像有人指著一臺20萬的新能源車，說1萬賣給你。便宜到難以置信。你忍不住問，這臺是不是隻會唱：爸爸的爸爸是爺爺？

美國科技界迅速對DeepSeek做了各種評測。然後，震驚了。這個“大模型屆的拼多多”，推理能力真和ChatGPT o1非常接近。

隨即，英偉達股票大跌17%。原來，訓練一個模型，並不需要像你們說的那麼多GPU啊。DeepSeek，居然做到了所有矽谷科技巨頭都沒做到的事。

那麼，DeepSeek，到底是怎麼做到的呢？

被“逼”的。被“年級第一”的“小院高牆”策略逼的。

小院高牆

2018年，美國首次提出對華科技防禦策略：小院高牆。關係到美國國家安全的“小院”（半導體和微電子，量子資訊科技，和人工智慧等等），對中國建設“高牆”（出口管制，限制簽證，和審查投資等等）。

隨後，2022年，美國開始禁止英偉達對中國出口高階GPU。這些GPU，對訓練AI大模型至關重要。

為什麼啊？好好做朋友不行嗎？不做朋友，做生意也行啊。公平競爭，共謀發展。有必要這麼藏著掖著防著嗎？

哎。你不理解“年級第一”的心態。

在一個班裡，倒數第一和倒數第二，一般都是鐵哥們。但是正數第一和正數第二，基本都是死對頭。

以前我幫你輔導作業，是因為你是後進。你進步我很高興。可是萬萬沒想到，你居然不識好歹，才幫了幾天你就想取代我的“年級第一”了。這怎麼行。橡皮是我的。GPU也是我的。以後再也不借給你了。

這就是“年級第一”的心態。

那怎麼辦呢？就這麼認輸嗎？沒有GPU，怎麼訓練AI模型呢？

創新。

資源無限的時候，不需要創新。真正的創新，都發生在匱乏的時候。

比如：混合專家系統。

混合專家系統

混合專家系統，也就是Mixure of Experts。簡稱MoE。

我們去醫院看病。醫院的50個醫生，每個都是最好的全科醫生。內科、外科、兒科、心血管科、腦科、甚至婦科。什麼都懂，什麼都能治。這當然最好。但這樣的成本實在是太高了。因為每個醫生可能都要30年才能畢業。

這就像大模型。一個模型，有50個博士學位，能回答所有問題。這當然好。但是實在是太燒GPU了。

可是，GPU都在美國的小院裡。我沒有。怎麼辦呢？

也許你可以試試，把醫院分成不同的科室。內科的只管內科，外科的只管外科。這樣，“訓練”醫生難度不就降低了嗎？

用50個便宜的專科醫生，取代一個昂貴的全科醫生。然後，再設一個導診臺，根據病情，把患者分配給不同的醫生，問題不就解決了嗎？

這就是混合專家系統。

混合專家系統，大大降低了AI的訓練成本。

強化學習

訓練大模型還有一項重要的成本，是人工打標籤。

這張照片，是隻小狗。那張照片，是隻小貓。清楚標記出來，人工智慧才不會學錯。用人工標籤，監督AI的學習過程。這就是“監督學習”（Surpervised Learning）。

“監督學習”，給很多第三世界國家，創造了大量工作崗位。所以有句開玩笑的話：

有多少“人工”，就有多少“智慧”。

那這個成本，能不能也省了呢？

孩子學習走路的時候，可沒有用什麼打標籤的照片吧。這個姿勢是正確的，那個姿勢是錯誤的。孩子，請按照片上的姿勢走。從來沒有吧。

那孩子是怎麼走路的？就是隻管走就好了。摔倒了屁股會疼。走好了媽媽會抱。孩子會根據這種懲罰和獎勵的反饋，不斷自動調整姿勢，直到終於在一個瞬間，就突然會走路了。

這就是：強化學習。Reinforcement Learning。簡稱RL。用激勵函式，而不是打標籤的資料，來學習。從而大大降低訓練成本。

MoE+RL。

真不容易。為什麼美國人沒有先做出來？

因為他們不缺GPU啊。很多創新，都是被“逼”出來的。

DeepSeek還有一個獨特之處，那就是：開源。

開源

有一個挺諷刺的事。你已經知道了吧。OpenAI，其實並不Open。

什麼，你還不知道？那聽我和你好好說說。

ChatGPT 2.0之前，OpenAI是開源的。模型的程式碼和權重，是對所有人公開的。但自從ChatGPT 3.0開始，OpenAI選擇了閉源。“OpenAI”變為了“CloseAI”。

其實，這也可以理解。訓練大模型實在是太燒錢了。逐漸大家也開始接受了：想要高質量的模型，就要選擇閉源。

直到，DeepSeek R1出現。並且開源。

可是，就算你的成本很低，只有OpenAI的1/20，也沒必要開源吧？畢竟你也要活下啊？你開源，圖什麼啊？

圖：生態。

我只有200個工程師。就算他們全是北大、清華畢業，也只有200個人。這點人手，根本無法和微軟、谷歌、OpenAI比。

那怎麼辦？團結整個開發者生態。

我把所有的研究成果，模型程式碼和權重，都免費公開給全世界。這樣，就會吸引大量開發者，來使用我的模型，測試我的模型，改進我的模型。

程式碼很重要。但是生態更重要。

用程式碼換取整個生態的幫助，可能才是對抗巨頭們的唯一方法。

明白了。可是，那你怎麼活下去呢？

別擔心。開源大模型，也能賺錢。

開源也能賺錢

開源大模型，至少有三種賺錢的辦法。

第一種，是“雙程式碼模式”。

免費公開的基礎程式碼。這對大部分人來說夠用了。但是對於一些大型企業來說，他們希望有的許可權管理，分級管理，等等各種“高階能力”，可以收費。

第二種，是“保險費模式”。

是程式碼，就會出問題。大公司對服務的穩定性、響應的及時性，要求很高。所以，大公司很可能會購買“保險”服務，確保遇到問題時，會有人會處理。

第三種，是“雲服務模式”。

而對中小企業和個人，可以像用水和用電一樣，直接呼叫DeepSeek的API，使用DeepSeek的雲端“智慧資源”，然後按“度”（百萬token）付費。

不管是開源，開始閉源。只要創造了價值，都能賺到錢。所以，不用為DeepSeek擔心。

也不用為英偉達擔心。

傑文斯悖論

DeepSeek這個“大模型屆的拼多多”橫空出世。英偉達股票當天暴跌17%。投資人擔心大家不再需要那麼多GPU了。

其實，大家不用太擔心。給你講個故事。

1776年，瓦特改良了蒸汽機。瓦特蒸汽機，比老式蒸汽機，節省2/3的煤炭。於是人們歡呼：煤炭的消耗，將從此大大減少。

但實際情況，恰恰相反。英國經濟學家傑文斯發現，蒸汽機的效率提高了10倍的同時，煤炭的消耗量不但沒有下降，反而上升了100倍。

為什麼呢？

因為蒸汽機效率提升後，原來用不起煤炭的人，覺得自己用得起了。於是紛紛辦廠。工廠數量的激增，反而引起煤炭用量的劇烈反彈。

這就是著名的“傑文斯悖論”。

英偉達的顯示卡同理。

DeepSeek大大提升了GPU的使用效率。這在短期內，可能會導致GPU的用量下降。但很快，就會有更多人因此加入模型訓練陣營，從而導致顯示卡的需求激增。

果然。懵了的納斯達克，第二天就清醒了過來。英偉達股票回漲了8%。

回過神來後，在一片讚歎聲中，也逐漸出現了各種質疑和批評。

比如：蒸餾。

蒸餾

美國白宮顧問David Sacks公開表示，有“實質性證據”證明，中國AI公司DeepSeek“蒸餾”（distill）了OpenAI模型。他把這種“蒸餾”行為，比作“偷竊”。

嗯……打不過，就誣陷嗎？“蒸餾”這個指控，很嚴重啊。

首先解釋一下，什麼是“蒸餾”？

有兩個模型。一個老師模型（teacher model），一個學生模型（student model）。學生不斷向老師提問，並把“問題-答案”記錄下來。然後用這些“問題-答案”的資料，來訓練學生，從而讓學生擁有和老師非常接近的知識和能力。這就叫：蒸餾。

這就是蒸餾啊？可是，學生向老師學習，也沒什麼問題吧？

是的。學習是沒什麼問題。但是，ChatGPT的使用者協議裡明確寫著，不允許用我的模型，來訓練新的模型，尤其是訓練用來和我競爭的模型。也就是說，禁止蒸餾。用ChatGPT，就要遵守ChatGPT的使用協議。這是誠信問題。

另外，牛頓花了30年創造了萬有引力定律。我花了3天學會了萬有引力定律。雖然結果是，我們都懂了萬有引力定律。但是，我不能用我的3天，去嘲笑牛頓的30年。

所以，David的這個“蒸餾”指控，還是挺重的。

那麼，我親愛的讀者朋友，你相信DeepSeek蒸餾了ChatGPT的模型嗎？

我確實不知道。我希望沒有。因為如果真有，那這篇文章前面所有文字，可能都白寫了。

如果真的沒有，DeepSeek，我希望你能你起訴David。請求法院罰他賠償1美元。加在小紅書上連續道歉30天。

這樣的汙衊，太欺負人了。

曼哈頓計劃 2.0

DeepSeek這把火，為何燒疼了矽谷？

用遊戲科學的創始人馮驥的話來說：因為這是一個“國運級”的機會。

為什麼？因為AI不是一項普通的技術。它是一門能改變幾乎所有其他技術的技術。

哪個國家能率先實現通用人工智慧（AGI），也許誰就能率先解決材料科學問題（武器更先進），率先解決蛋白質問題（醫療更先進），率先解決可控核聚變問題（能源更先進），以及其他很多問題。

這也是為什麼，美國人把AI稱作曼哈頓計劃 2.0。

上個世紀，美國人發誓，一定要比德國人先研發出原子彈。這項計劃，就叫做作：曼哈頓計劃。現在，他們把一定要比中國人先實現通用人工智慧。甚至不惜各種封鎖。

哎。至於嗎。一起發展不好嗎？必須對中國封鎖嗎？

我用這個問題問AI。

中國的DeepSeek給我的回答是：

否。技術競合催生共贏，封鎖反噬創新生態。

說得真好。

而ChatGPT給我的回答是：

否。但出於競爭與安全考量，美國可能選擇部分領域封鎖以維護技術優勢。

嗯。果然是美國的GPT。

這是劉潤公眾號的第2504篇原創文章