投機者能抓住短期機會,但實力者才能抓住長期機會。
作者丨陳彩嫻
DeepSeek 風暴後,中國的大模型創業圈會發生什麼樣的變化?
近日來,筆者也與多位業內人士進行了探討,發現國產大模型圈目前出現了兩個極端:一個是極端的熱血沸騰,另一個則是極端的霜打茄子。
前者以積極擁抱 DeepSeek 生態的算力廠商與模型服務廠商、以及原先沒有能力參與大模型“軍備競賽”的開源受益者為代表,後者則以其他中國大模型創業公司(俗稱“大模型六小虎”)與過去兩年投資了這些公司的 VC 們為主,形成了一個“冰火兩重天”的局面。
據瞭解,部分在過去兩年投了估值在第一梯隊的大模型公司的 VC 團隊已經開始準備/正在接受內部的“鞭屍”,主要被質問的角度無非是幾點:
“為什麼 DeepSeek 用這麼低的成本就能訓練出這麼強大的模型,而我們投的大模型公司融資了幾十億美金卻做不出來?”
“DeepSeek 這次能出圈本質還是技術足夠創新、足夠牛。XXX 家連基本的大模型技術團隊都沒有,為什麼要投?”
“XXX 也有非常強大的人才團隊,而且也有訓練基座大模型的經驗與追求,為什麼沒有成為 DeepSeek?他們靠什麼支撐這麼高的估值?”
“DeepSeek 出來後,誰還會投大模型六小虎?還有哪幾個有上市希望?如果沒有,接下來我們是回購還是退出?”
“為什麼沒有成為 DeepSeek”,以及“為什麼中國只有一個 DeepSeek”,是幾乎所有大模型從業者與 VC 從春節就開始求索的問題。這兩個問題幾乎可以涵蓋了目前國內所有關於大模型創新的焦慮,也只有嚴肅探討這兩個問題,才能回答另一個更重要的問題:如何成為 DeepSeek?
在春節期間的一篇文章《》中,我們已經從中美 AI 創新對比的大角度試圖向行業傳遞一個資訊:中國 AI 需有民族自豪感;而在這一篇文章中,我們希望結合過去四年中國大模型的發展歷史,進一步探討:
中國是否缺少像 DeepSeek 這樣的技術理想主義者?
如果中國不缺少,這樣的技術團隊是否已被充分挖掘、並得到相應的社會系統性支援?如沒有,原因出在哪裡?
作為一個從 2020 年 GPT-3 爆發以來就跟進大模型報道的行業號,這篇文章無意於回答一個如此宏觀而深刻的問題,只從第三方視角呈現一些或許與該話題相關的事實或觀點。
1
系統性錯位
2023 年之前,中國只有 4 家大模型公司:智譜、面壁、深言與聆心(後被智譜收購),且都來自清華;2023 年之後,大模型的創業公司增加到了十幾家,從技術上看直接原因是 Llama 開源,但最根本的原因其實是,那時候所有人都認為:
大模型的技術門檻雖高、但並非不可模仿。尤其基於已有的開源大模型,技術難度進一步降低,“技術無法構成商業壁壘”的論調甚囂塵上。
在這種集體共識的“統治”下,我們覆盤 2023 年 ChatGPT 爆火後中國大模型創業的幾個力量動態,就不難理解當前中國大模型創業中場的畸形現象:
首先,由於整個市場對技術創新的敬畏之心變弱,2023 年 ChatGPT 大火後,中國的第一批大模型技術探路者中,只有智譜一家成為了資本的寵兒,最早突破 200 億人民幣估值大關、躋身大模型第一梯隊。(月之暗面是 2023 年後成立的,故不算在其中)
而由清華實驗室(THUNLP)走出的其餘兩家創業公司面壁、深言,在資本市場的呼聲遠不如後來的新勢力。
尤其是面壁智慧(因為深言選擇了聚焦產品),作為國內最早提出要做“平民版大模型”、跟 DeepSeek 的技術願景與創新方向最像、甚至比 DeepSeek 還早成立的一家公司,直到 2024 年年底完成一筆 3 億人民幣的融資後、估值也才不到 35 億人民幣,距離第一梯隊的 200 億門檻相差極遠。
據雷峰網 AI 科技評論過去兩年與超 50 位大模型投資人的交流所知,同是清華出身、同有技術先發優勢、同有優秀年輕技術人才的智譜與面壁之所以相差那麼大,主要有幾方面原因:
一是清華學術派追基座模型的只押一家,因為“對教授創業持保留意見”;二是智譜的願景更好理解,早期對外融資時說“對標 OpenAI”、VC 立刻就懂,但面壁由於一開始就強調底層模型訓練效率最佳化,在熱錢最多的 2023 年一度被認為是一家類似潞晨、矽基的“AI Infra”公司。
面壁智慧在 2023 年沒拿到太多錢、無法投入基座大模型,透過類似 DeepSeek V3 這樣的基座大模型訓練直觀反饋高效訓練的重要性,2024 年就只有走端側小模型,而後者對“高效訓練”的代言效果遠沒有 DeepSeek V3 這樣的工作好。
2022 年、2023 年在融資時,面壁就打出“高效訓練”的旗號去融資,但幾乎在 VC 那吃遍了閉門羹。
其次,也是承接沒有對技術敬畏之心的大環境前提,2023 年大模型浪潮來臨後,中國的 AI 科技 VC 其實並沒有沉下心來研究 AGI 這項技術,而是為了迅速上桌將錢投向了“曾打過勝仗的連續成功創業者”,哪怕這些團隊此前壓根沒有過任何大模型研發經歷。
這當中,最典型的代表是王慧文的光年之外與王小川的百川智慧。
當前估值超過 200 億人民幣的大模型公司中,只有智譜唐傑、月之暗面楊植麟等人是從 2020 年大模型未出圈時就開始了對大模型的技術探索,百川智慧、MiniMax與階躍星辰的團隊大多都是在 2023 年之後才展開。
譬如,MiniMax 的創始人閆俊傑是計算機視覺出身,而大模型起初解決的是語言智慧(多模態是另一篇章)。不過 MiniMax 最早是靠產品 Glow 出圈、而非底層大模型技術獲得資本青睞的,所以這是另外一個維度,且靠近閆俊傑的人對他的評價都是“很有技術追求”。
DeepSeek 的研發團隊同樣是從 0 開始學習大模型技術,苦讀論文、死磕實驗,所以沒有任何跡象表明一個從前未曾訓練過大模型的團隊無法透過在 2023 年之後的努力學習來補足技術的短板,但從過去兩年的行業發展來看,百川智慧在基座模型上明顯掉隊,只能轉向醫療行業大模型。
由於不訓練基座大模型,百川的研發成本較其他公司更低,現金流充裕——但這隻對百川有利,對整個大模型行業的行業是沒有貢獻的。
假設在資源有限的情況下,沒有技術能力的團隊佔據了大量的資本資源,反之有技術能力的團隊卻只能得到極少的資本資源,錢、才的系統性錯位註定產生的結果只有遺憾、沒有未來。
如若 AGI 大模型技術果真已沒有上升的空間、各家的技術壁壘已經逐漸拉平,那麼網際網路時代拼資源、拼資本的打法或許也能分到最後一杯羹。但對技術有敬畏之心的創業者始終保持清醒的頭腦,依然能看到現有大模型底層演算法與架構等在訓練與推理中所存在的不足,知道 AGI 仍有許多具體且高難度的問題要解決。
也就是說,底層技術的持續創新能力仍是大模型公司的護城河,純拼資源的網際網路方法論暫不適用當前中國的大模型發展。——但這些話大機率不會得到大部分中國科技 VC 的認可,因為 2023、2024 年的大模型投資甚至還有“Club Deal”這樣的玩法……
在過去兩年的大模型發展中,一個不願意學習技術的 VC,比一個不願意學習技術的研發所產生的殺傷力,可能還要更大。
泡沫期終將結束。潮水褪去後,誰在裸泳也將一目瞭然。
2
AGI 軍團可遇不可求
市場對技術缺乏敬畏之心的另一個影響是:為了迎合市場,(當然還有突破大廠圍剿的考慮),過去兩年中國大模型創業公司的目光也從長期的 AGI 轉到短期的商收、產品打磨上。
這一打法的變化也是因為上述行業的誤判,以為大模型再無創新之處。堅定追求 AGI 的創業者必須同時兼顧商業與技術,而對 AGI 產生懷疑或徹底被市場聲音迷惑的團隊則要麼放棄預訓練、全面轉向 C 端應用或乾脆只基於開源模型微調行業大模型。
從 GPT-3 到 ChatGPT 的出現經歷了兩年半,但市場卻普遍呈現出一個“規律”:國內的大模型從基座到商業化只要兩年。儘管一些大模型公司能同時堅持“L2”與“L4”兩步走,但在人才與研究資源的投入上沒有一家公司能像 DeepSeek 一樣對 AGI 這麼純粹。
2023 年上半年融資戰剛開始時,業內的一個分析是:中國的 VC 經過上一代 AI 公司的“洗禮”,對大模型公司的商業化耐心已經從 5 年、8 年縮短到 3 年內。——這或許是中國大模型公司的普遍困境。
眾所周知:DeepSeek 專注 AGI 研究,是依託梁文鋒個人與幻方量化的原有儲備資金,沒有向外融資。“自己有錢,所以不需要聽外界的,自己想幹什麼就幹什麼。”——這也是眾多大模型公司對 DeepSeek 羨慕的地方。
近日原先噴 AGI 的朱嘯虎又改口稱因為 DeepSeek 願意投 AGI 公司,可以說是 DeepSeek 用過硬的技術實力改變了 VC 的看法,但更殘酷的一個現實是:可能大批有過硬創新能力的團隊因為融不到錢而倒在時代的前夜。
“商業化思維”不僅反映在部分科技 VC 的影子中,其實也反映在研發人才的選擇中。
根據獵頭的反饋,2024 年,中國對人才“氪金”力度最大的公司毫無疑問是位元組跳動。大廠與創業團隊的分野已經形成,而大模型人才從創業團隊流向大廠更是成為過去一年的普遍選擇。例如,據 AI 科技評論所知,DeepSeek 為做 AGI 所物色的多位 NLP、多模態與強化學習方向的優秀人才,就在 DeepSeek 與位元組跳動之間選擇了 位元組跳動。
據早期為 DeepSeek 服務的獵頭透露,DeepSeek 早期也希望從海外的谷歌、Meta、OpenAI 等團隊挖頂尖人才,但進展並不順利,所以只能退而求其次、自己培養。
AGI 的投入,除了要有錢,也要有人,而且是一群絕對的技術理想主義者,以及優秀的組織文化。DeepSeek 的成功或許無法複製,但從 V2、V3 到 R1、R1-Zero,DeepSeek 的技術結果體現了其在資金、人才/理想與組織文化上的優勢。
在 DeepSeek 之前,“北九坤、南幻方”就已經在金融量化領域鼎鼎有名,而量化行業對技術人才的高要求也是眾所周知的,基本以 Top2 高校、資訊學競賽金牌選手為基準,團隊規模往往不大,但能力超強。據 AI 科技評論瞭解,2024 年上半年 DeepSeek 的團隊規模也只有 40 多人,且大多數是原幻方 Top2 的技術高手。
延續原來幻方的風格,DeepSeek 的招聘門檻一直非常高。比如,他們從 2024 年年中就開始物色多模態與強化學習方向的技術大牛,但招了大半年、相關崗位也依然空缺,對人才的招聘寧缺毋濫。R1 爆火後,投遞簡歷雖然暴增,但據知情人士稱“合適的並不多”。
DeepSeek 內部的組織文化也非常扁平。據 AI 科技評論瞭解,無論是北京還是杭州,都只有一個老闆:DeepSeek 創始人梁文鋒。“梁文鋒以下基本全是打工人。”
此外,梁文鋒的個人風格也十分明顯:有極強的技術信仰,對 AGI 有十足的好奇心與求知慾,並且十分刻苦。接近梁文鋒的知情人士形容,梁文鋒“說話非常非常慢,每一句話都要思考很久很久才表達出來,而且表達非常簡潔。雖然簡潔,但說出來的話經常一針見血。”
DeepSeek 的團隊文化與宇樹、Momenta 這樣的公司很相似:一號位都是技術發燒友,對技術有天然的敬畏之心與好奇之心;同時在管理上集權風格明顯,文化扁平,因而能在技術探索中遇到困難時能自上而下協調資源,快速達到上傳下達的效果。
同時,宇樹與 DeepSeek 在招人時也有一套自己的標準,與市面上千篇一律的面試套路很不同。有興趣的讀者可以去了解下。
DeepSeek 梁文鋒很早開始探索如何用更低的成本訓練出更強的模型,彼時行業還普遍看不懂。同樣地,宇樹王興興也是在大家還看不懂機器狗時就開始做四足機器狗,Momenta 曹旭東也是在自動駕駛行業還普遍沉醉於 L4 時同時開始做 L2 與 L4、兩條腿走路。
敢於與主流對著幹的創業團隊需要一種強大的叛逆精神。在 AI 科技評論與多位投資人的交流中,這種“叛逆”容易被輕易地歸類為“年輕人群體”,但在筆者看來,叛逆的底氣終究來源於一個團隊對自己所要解決的社會問題的認知、判斷與技術自信,即:堅信自己的前進方向是未來的,會帶來巨大的價值。
3
創新的品味
V2 掀起價格戰後,梁文鋒在接受《暗湧》的訪談時對這個技術成果的評價是:“在美國每天發生的大量創新裡,這是非常普通的一個。”
V3 與 R1 之後,梁文鋒暫時還沒有對外發過聲,但對 DeepSeek 與梁文鋒來說,在完全實現 AGI 之前,或許 V3 與 R1 的創新也只是“非常普通的一個”。——這並非否定後兩者的突破與可取之處,而是想突出高追求的團隊往往會將 100 分的事情說成 80 分,並永遠追求附加分。
R1 釋出,業內的一位資深強化學習學者向 AI 科技評論分析時表示:“用純 RL 演算法代替 RL+SFT 的正規化後,我覺得 AGI 的實現最晚三年。”
Sam Altman 說 2025 年 AI 就會超越人類,馬斯克也說 AGI 最晚在 2026 年就可以實現。——在各種“AGI時間點”的預言上,雖然我們很難判斷具體會在什麼時候發生,但可以感受到這樣的大趨勢正在發生。
趨勢已知,同時 DeepSeek 的打板已經讓大家意識到起碼兩個事實:一是 AGI 的技術還沒到天花板,二是中國的科技團隊有能力做出引領世界 AGI 的創新。相比沉浸於 DeepSeek 的勝利,接下來怎麼推動中國 AGI 的發展,才是更重要的事情。
在過去的半個月,DeepSeek 的風暴讓大廠、創業公司、算力廠商、投資人等對 AGI 發展的認知都產生了新的變化。一些過去被忽視的大象般的問題重新得到重視,同時一些過去的陳舊看法也被顛覆。但一致的變化是:所有人都意識到,在現階段,AGI 的實現仍需要理想主義。
相比猜測 OpenAI 或 DeepSeek 下一步會做什麼,推斷 AGI 需要解決什麼技術問題更重要。換言之,創新比模仿更重要。
事實上,根據過去一年 AI 科技評論的訪談,除了 DeepSeek,國內也有不少 AI 人才在不斷堅持創新、不斷提出新的解法來解決懸而未決的難題。只列舉一二:
香港大學計算與資料科學研究院院長馬毅教授在過去兩年一直強調:當前透過高算力推進訓練的大模型擁有的是知識、而非智慧。區別於深度學習的黑盒特質,馬毅團隊一直致力於研究可解釋、可控制的人工智慧演算法與框架(白盒理論)。(更多資訊可以閱讀 AI 科技評論往期報道:《》)
CNCC 2024 上,智譜唐傑提到多模態技術的下一步發展。從 2021 年開始,智譜團隊就開始探索多模態大模型。據智譜團隊透露,在早期探索中,他們遇到過類似的問題:文字、影象、語音與影片等多模態資料同時灌入訓練大模型時,一個模態的資料似乎會削弱另一個模態的知識/智慧。多模態雖然趨勢,但如何最佳化跨模態的資料對齊、收集高質量的資料、以及增強多模態模型的常識與推理能力等,也仍有很強的研究空間。(更多內容可以閱讀雷峰網往期報道:《》)
而據 2024 年 3 月與面壁團隊多位創始成員的交流,當前主流的大模型架構其實還無法很好地解決幾個關鍵問題,由此難以靠近 AGI:如經驗學習與空間記憶。例如人可以透過多次學習一件事而更熟練,或者迅速熟悉新環境、並將另一個問題的認知有效遷移到新環境中。這些問題是當前 Transformer 不太好表達的。(更多內容可以閱讀 AI 科技評論往期報道:《》)
隨著具身智慧的發展,接下來 AGI 也天然分會分為雲端 AGI 與端側 AGI。端側 AGI 指的是天然能感知環境與進行做高階推理,並能基於高階推理做出複雜多步的決策的模型。熱門的具身大小腦就是沿著這一趨勢發展,而這一方向也仍有許多問題要解決。要解決這些問題,除了資源,還要有強烈的技術實力與技術願景。
o1 釋出後,大模型領域的許多研究開始往推理走,但據小道訊息:谷歌的 Gemini 團隊近日已完成了新一代的基礎模型,並對一小部分使用者開放了測試。
雖然 2023 年穀歌被 OpenAI 打得股價暴跌,但如果看 2020 年 6 月到 2022 年期間谷歌的大模型技術,就可以發現谷歌的大模型打法是自下而上構建從底層算力、架構到上層演算法的體系。這或許也是谷歌 Gemini 能後來發力的重要原因。
DeepSeek 的路徑也是如此。根據 DeepSeek 的技術披露,其研究大模型的路徑也是從底層萬卡叢集、HAI 框架向上貫穿,構建環環相扣的技術體系。
對權威保持警惕、永遠從問題的本質倒推,堅定創新,才能引領潮流。短期的快錢或許會流向幸運的人,但長期的資源應該流向那些擅長將資源應用到最好的團隊。
希望 2025 年,中國不再只有一個 DeepSeek。
更多內容,點選下方關注:
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
「鯰魚」DeepSeek 正在攪動上下游
矽谷巨頭要學會接受一個事實:「DeepSeek 現象」只是中國 AI 崛起的開始
Andrej Karpathy 最新影片盛讚 DeepSeek:R1 正在發現人類思考的邏輯並進行復現