很多人在後臺給我留言,要我講講DeepSeek。 這大過年的。 本來想睡個懶覺。 然後看個電影。 然後再睡個懶覺。 然後再看個電影。 什麼也不想寫。 但是但是但是,DeepSeek實在是太火了。
火到什麼程度呢?
美國的一把山林大火,幾個星期燒掉了加州2500億美元。而DeepSeek橫空出世,納斯達克大跌3%,瞬間燒掉了5000多億。什麼概念?如果把這5000多億換成百元美刀,用飛機來運到焚燒廠去燒,需要87架滿載的空客380。
美國人嚇壞了。
可是,DeepSeek這把火,為何燒疼了矽谷?DeepSeek,到底厲害在什麼地方?他被高估了嗎?有人指責DeepSeek“偷竊”,是真的嗎?
今天。我們就來聊聊這件事。從哪裡開始呢?就從美國人為什麼這麼怕開始。這種怕,源於心中的一根刺。一根針不能碰,一碰就疼的針。
這根刺的名字叫:斯普特尼克時刻。
1957年10月的一天,很多美國人走出家門,驚恐地望向天空。他們聽說,(前)蘇聯人發了一顆“籃球”上天,繞著地球飛行。時速29000公里。他們試著用肉眼,尋找這顆不斷在他們頭頂上繞圈的“籃球”。
這顆“籃球”的名字,就叫斯普特尼克(sputnik)。它當然不是籃球。它是一顆人造衛星。
人類歷史上第一顆人造衛星。
人類歷史上第一顆人造衛星,“居然”不是自己發射的。美國人很難接受。你能想象嗎?這就像連續三年的全年級第一,突然發現清華唯一提前錄取的,不是自己。
斯普特尼克號衛星,就像一根刺一樣,扎痛了那一代美國人。
然後,美國正式成立了NASA(美國航天局),並舉國之力完成了登月。這才拔掉了心頭那根叫“斯普特尼克”的刺。
68年後的今天,DeepSeek讓美國人看到了另一個“斯普特尼克”時刻。
大模型屆的拼多多
你試過DeepSeek了嗎?
趕快去試試。真不錯。推理能力,直逼OpenAI的ChatGPT o1。而且,不用翻牆。不用美國信用卡。也不用擔心,因為不慎被發現是中國使用者,而被系統“歧視性”封號。太揚眉吐氣了。
但這都不是最重要的。最重要的是:DeepSeek實在是太太太便宜了。
ChatGPT o1完成一次訓練的成本,據說要上億美金。而DeepSeek,只需要不到600萬美金。
1/20。便宜到不敢相信。
這就像有人指著一臺20萬的新能源車,說1萬賣給你。便宜到難以置信。你忍不住問,這臺是不是隻會唱:爸爸的爸爸是爺爺?
美國科技界迅速對DeepSeek做了各種評測。然後,震驚了。這個“大模型屆的拼多多”,推理能力真和ChatGPT o1非常接近。
隨即,英偉達股票大跌17%。原來,訓練一個模型,並不需要像你們說的那麼多GPU啊。DeepSeek,居然做到了所有矽谷科技巨頭都沒做到的事。
那麼,DeepSeek,到底是怎麼做到的呢?
被“逼”的。被“年級第一”的“小院高牆”策略逼的。
小院高牆
2018年,美國首次提出對華科技防禦策略:小院高牆。關係到美國國家安全的“小院”(半導體和微電子,量子資訊科技,和人工智慧等等),對中國建設“高牆”(出口管制,限制簽證,和審查投資等等)。
隨後,2022年,美國開始禁止英偉達對中國出口高階GPU。這些GPU,對訓練AI大模型至關重要。
為什麼啊?好好做朋友不行嗎?不做朋友,做生意也行啊。公平競爭,共謀發展。有必要這麼藏著掖著防著嗎?
哎。你不理解“年級第一”的心態。
在一個班裡,倒數第一和倒數第二,一般都是鐵哥們。但是正數第一和正數第二,基本都是死對頭。
以前我幫你輔導作業,是因為你是後進。你進步我很高興。可是萬萬沒想到,你居然不識好歹,才幫了幾天你就想取代我的“年級第一”了。這怎麼行。橡皮是我的。GPU也是我的。以後再也不借給你了。
這就是“年級第一”的心態。
那怎麼辦呢?就這麼認輸嗎?沒有GPU,怎麼訓練AI模型呢?
創新。
資源無限的時候,不需要創新。真正的創新,都發生在匱乏的時候。
比如:混合專家系統。
混合專家系統
混合專家系統,也就是Mixure of Experts。簡稱MoE。
我們去醫院看病。醫院的50個醫生,每個都是最好的全科醫生。內科、外科、兒科、心血管科、腦科、甚至婦科。什麼都懂,什麼都能治。這當然最好。但這樣的成本實在是太高了。因為每個醫生可能都要30年才能畢業。
這就像大模型。一個模型,有50個博士學位,能回答所有問題。這當然好。但是實在是太燒GPU了。
可是,GPU都在美國的小院裡。我沒有。怎麼辦呢?
也許你可以試試,把醫院分成不同的科室。內科的只管內科,外科的只管外科。這樣,“訓練”醫生難度不就降低了嗎?
用50個便宜的專科醫生,取代一個昂貴的全科醫生。然後,再設一個導診臺,根據病情,把患者分配給不同的醫生,問題不就解決了嗎?
這就是混合專家系統。
混合專家系統,大大降低了AI的訓練成本。
強化學習
訓練大模型還有一項重要的成本,是人工打標籤。
這張照片,是隻小狗。那張照片,是隻小貓。清楚標記出來,人工智慧才不會學錯。用人工標籤,監督AI的學習過程。這就是“監督學習”(Surpervised Learning)。
“監督學習”,給很多第三世界國家,創造了大量工作崗位。所以有句開玩笑的話:
有多少“人工”,就有多少“智慧”。
那這個成本,能不能也省了呢?
孩子學習走路的時候,可沒有用什麼打標籤的照片吧。這個姿勢是正確的,那個姿勢是錯誤的。孩子,請按照片上的姿勢走。從來沒有吧。
那孩子是怎麼走路的?就是隻管走就好了。摔倒了屁股會疼。走好了媽媽會抱。孩子會根據這種懲罰和獎勵的反饋,不斷自動調整姿勢,直到終於在一個瞬間,就突然會走路了。
這就是:強化學習。Reinforcement Learning。簡稱RL。用激勵函式,而不是打標籤的資料,來學習。從而大大降低訓練成本。
MoE+RL。
真不容易。為什麼美國人沒有先做出來?
因為他們不缺GPU啊。很多創新,都是被“逼”出來的。
DeepSeek還有一個獨特之處,那就是:開源。
開源
有一個挺諷刺的事。你已經知道了吧。OpenAI,其實並不Open。
什麼,你還不知道?那聽我和你好好說說。
ChatGPT 2.0之前,OpenAI是開源的。模型的程式碼和權重,是對所有人公開的。但自從ChatGPT 3.0開始,OpenAI選擇了閉源。“OpenAI”變為了“CloseAI”。
其實,這也可以理解。訓練大模型實在是太燒錢了。逐漸大家也開始接受了:想要高質量的模型,就要選擇閉源。
直到,DeepSeek R1出現。並且開源。
可是,就算你的成本很低,只有OpenAI的1/20,也沒必要開源吧?畢竟你也要活下啊?你開源,圖什麼啊?
圖:生態。
我只有200個工程師。就算他們全是北大、清華畢業,也只有200個人。這點人手,根本無法和微軟、谷歌、OpenAI比。
那怎麼辦?團結整個開發者生態。
我把所有的研究成果,模型程式碼和權重,都免費公開給全世界。這樣,就會吸引大量開發者,來使用我的模型,測試我的模型,改進我的模型。
程式碼很重要。但是生態更重要。
用程式碼換取整個生態的幫助,可能才是對抗巨頭們的唯一方法。
明白了。可是,那你怎麼活下去呢?
別擔心。開源大模型,也能賺錢。
開源也能賺錢
開源大模型,至少有三種賺錢的辦法。
第一種,是“雙程式碼模式”。
免費公開的基礎程式碼。這對大部分人來說夠用了。但是對於一些大型企業來說,他們希望有的許可權管理,分級管理,等等各種“高階能力”,可以收費。
第二種,是“保險費模式”。
是程式碼,就會出問題。大公司對服務的穩定性、響應的及時性,要求很高。所以,大公司很可能會購買“保險”服務,確保遇到問題時,會有人會處理。
第三種,是“雲服務模式”。
而對中小企業和個人,可以像用水和用電一樣,直接呼叫DeepSeek的API,使用DeepSeek的雲端“智慧資源”,然後按“度”(百萬token)付費。
不管是開源,開始閉源。只要創造了價值,都能賺到錢。所以,不用為DeepSeek擔心。
也不用為英偉達擔心。
傑文斯悖論
DeepSeek這個“大模型屆的拼多多”橫空出世。英偉達股票當天暴跌17%。投資人擔心大家不再需要那麼多GPU了。
其實,大家不用太擔心。給你講個故事。
1776年,瓦特改良了蒸汽機。瓦特蒸汽機,比老式蒸汽機,節省2/3的煤炭。於是人們歡呼:煤炭的消耗,將從此大大減少。
但實際情況,恰恰相反。英國經濟學家傑文斯發現,蒸汽機的效率提高了10倍的同時,煤炭的消耗量不但沒有下降,反而上升了100倍。
為什麼呢?
因為蒸汽機效率提升後,原來用不起煤炭的人,覺得自己用得起了。於是紛紛辦廠。工廠數量的激增,反而引起煤炭用量的劇烈反彈。
這就是著名的“傑文斯悖論”。
英偉達的顯示卡同理。
DeepSeek大大提升了GPU的使用效率。這在短期內,可能會導致GPU的用量下降。但很快,就會有更多人因此加入模型訓練陣營,從而導致顯示卡的需求激增。
果然。懵了的納斯達克,第二天就清醒了過來。英偉達股票回漲了8%。
回過神來後,在一片讚歎聲中,也逐漸出現了各種質疑和批評。
比如:蒸餾。
蒸餾
美國白宮顧問David Sacks公開表示,有“實質性證據”證明,中國AI公司DeepSeek“蒸餾”(distill)了OpenAI模型。他把這種“蒸餾”行為,比作“偷竊”。
嗯……打不過,就誣陷嗎?“蒸餾”這個指控,很嚴重啊。
首先解釋一下,什麼是“蒸餾”?
有兩個模型。一個老師模型(teacher model),一個學生模型(student model)。學生不斷向老師提問,並把“問題-答案”記錄下來。然後用這些“問題-答案”的資料,來訓練學生,從而讓學生擁有和老師非常接近的知識和能力。這就叫:蒸餾。
這就是蒸餾啊?可是,學生向老師學習,也沒什麼問題吧?
是的。學習是沒什麼問題。但是,ChatGPT的使用者協議裡明確寫著,不允許用我的模型,來訓練新的模型,尤其是訓練用來和我競爭的模型。也就是說,禁止蒸餾。用ChatGPT,就要遵守ChatGPT的使用協議。這是誠信問題。
另外,牛頓花了30年創造了萬有引力定律。我花了3天學會了萬有引力定律。雖然結果是,我們都懂了萬有引力定律。但是,我不能用我的3天,去嘲笑牛頓的30年。
所以,David的這個“蒸餾”指控,還是挺重的。
那麼,我親愛的讀者朋友,你相信DeepSeek蒸餾了ChatGPT的模型嗎?
我確實不知道。我希望沒有。因為如果真有,那這篇文章前面所有文字,可能都白寫了。
如果真的沒有,DeepSeek,我希望你能你起訴David。請求法院罰他賠償1美元。加在小紅書上連續道歉30天。
這樣的汙衊,太欺負人了。
曼哈頓計劃 2.0
DeepSeek這把火,為何燒疼了矽谷?
用遊戲科學的創始人馮驥的話來說:因為這是一個“國運級”的機會。
為什麼?因為AI不是一項普通的技術。它是一門能改變幾乎所有其他技術的技術。
哪個國家能率先實現通用人工智慧(AGI),也許誰就能率先解決材料科學問題(武器更先進),率先解決蛋白質問題(醫療更先進),率先解決可控核聚變問題(能源更先進),以及其他很多問題。
這也是為什麼,美國人把AI稱作曼哈頓計劃 2.0。
上個世紀,美國人發誓,一定要比德國人先研發出原子彈。這項計劃,就叫做作:曼哈頓計劃。現在,他們把一定要比中國人先實現通用人工智慧。甚至不惜各種封鎖。
哎。至於嗎。一起發展不好嗎?必須對中國封鎖嗎?
我用這個問題問AI。
中國的DeepSeek給我的回答是:
否。技術競合催生共贏,封鎖反噬創新生態。
說得真好。
而ChatGPT給我的回答是:
否。但出於競爭與安全考量,美國可能選擇部分領域封鎖以維護技術優勢。
嗯。果然是美國的GPT。
這是劉潤公眾號的第2504篇原創文章