DeepSeek在春節長假期間的爆火出圈,讓不少國產算力廠商和雲服務廠商看到了機會。
過去一週,已有包括壁仞科技、天數智芯等多家國產算力廠商,以及雲、阿里雲、騰訊雲在內的眾多雲服務廠商紛紛宣佈適配DeepSeek,在國產算力平臺上提供DeepSeek開源模型的推理服務。
目前,大模型對於算力的需求存在訓練和推理兩個方面。就技術難度而言,相較於提供推理服務,訓練實現的難度顯然更大,因為後者相當於是對大模型從0到1 的培養,無論是在計算效能、資料、精度等要求都更高。這也是為什麼一眾國產算力平臺能夠迅速實現對DeepSeek的模型部署,但至今國內仍鮮有模型在訓練層面基於國產算力平臺的原因。
時至今日,訊飛星火仍然是目前國內唯一一個基於全國產算力平臺訓練的大模型。今年1月15日,科大訊飛對外發布的深度推理模型訊飛星火X1,同樣是首個使用全國產算力訓練的深度推理模型。未來一個月內,X1還將有一次重大版本升級,確保其在數學、教育、醫療、科研等關鍵領域上始終處於業內領先水平。
科大訊飛此前對外介紹,使用全國產算力訓練大模型的難度遠超業內同行。首先是全國產算力平臺底座的難題。2023年,科大訊飛攜手華為共同攻克多方面難關,成功打造出中國首個支援萬億引數訓練的國產算力平臺“飛星一號”。2024年10月,“飛星二號”也正式啟動,將持續帶來新模型、新演算法的適配和智算叢集規模的再次躍遷,給世界提供第二種選擇。據介紹,“飛星二號”首批算力將在2025年交付試用。
科大訊飛董事長此前在公司內部透露,自主可控的生態探索十分不易,他們30%的算力都消耗在大模型訓練的“無人區”探索上。但儘管耗費了大量的財力和時間,科大訊飛仍然堅持使用國產算力,用了不到同行1/10的卡,做了比別人多幾倍的任務。
和業內不少使用英偉達算力叢集訓練的大模型相比,國產算力在效能、功耗上仍有一定差距。這是一條從未有人走通、也沒有可借鑑經驗的艱難道路。科大訊飛僅僅使用了1萬張910B的國產算力卡,不僅取得了大模型研發上的先進成果,而且在國產算力平臺上實現了大量無人區的適配和效率最佳化,可以說真正把國產算力利用到了極致。這遠遠比業內常見的基於英偉達算力叢集的研發,更需要技術實力和戰略勇氣。
從這個角度上來說,DeepSeek在在演算法最佳化和資源利用上的創新,與科大訊飛基於全國產算力平臺訓練的創新,都可以看作是中國大模型產業在有限的算力條件下、突破制約的不同方向的探索。
DeepSeek打破的是過去業內傳統概念下的算力壁壘,讓世界看到即便基於有限的算力,中國大模型仍然可以實現模型能力比肩海外主流水平。DeepSeek的成功,甚至引發了市場對算力巨頭們的看衰,過去一段時間,包括英偉達在內的算力廠商股價集體暴跌,英偉達股價一天時間內一度暴跌近17%。
科大訊飛則是堅持走出了一條從算力底座、演算法技術到大模型訓練的全棧自主可控的生態之路。這不僅是科大訊飛長期以來堅持人工智慧國家隊的歷史使命,也是中國科技公司們在面對美國人工智慧技術霸權的有力反制舉措。
美國自2022年開始對華實行晶片禁令,以阻止中國公司獲得先進製程晶片。此後禁令不斷加碼,今年1月禁令擴大到禁止美國企業在半導體、人工智慧及量子領域的對華投資方面,試圖全方位圍堵中國科技產業。
新一輪通用人工智慧的發展不僅關乎科技產業,也關乎未來國家科研、安全乃至社會發展的方方面面。在日益緊張的國際局勢下,中國的人工智慧產業必須堅持從源頭的自主可控。
劉慶峰此前在公司內部表示,如果我們的人工智慧是構建在國外的晶片上,我們在AI領域就不可能擁有競爭的底氣。“這就是為什麼科大訊飛要堅持自主可控這條又難、又辛苦、又長期的路線,因為它太重要了,這是我們必須堅持的使命。”
為此,劉慶峰為科大訊飛2025年定下了清晰的戰略目標:堅持自主可控、面向民生剛需、面向國家戰略需求以及賦能科研與生產。
全棧自研的大模型研發之路,也讓科大訊飛在以央國企為主的招投標市場上頗受青睞。去年的招投標市場上,科大訊飛成為央國企中標數量、中標金額的雙料第一,受到中石油、中石化、中海油等多家央國企單位的支援。
面向2025年,隨著DeepSeek的爆火,美國對算力管控力度或將進一步趨嚴。一些分析機構認為,美國或將以從此前的硬體制裁,上升到開始對人工智慧技術全方位戰略圍堵的新階段。從這個角度上來說,科大訊飛下定決心構建的大模型全棧國產化技術更有戰略意義及先發優勢。