作者|黃楠
編輯|袁斯來
在大模型技術浪潮中,Scaling Law被業界遵循為第一性原理,直至科技媒體The Information在獨家報道中指出,OpenAI下一代旗艦模型Orion的訓練效果或遠不及預期:與GPT-4相比,效能提升也許微乎其微。這引發了從業者對大模型發展路徑的深度思考:Scaling Law是否是唯一方向?
長期以來,基於Scaling Law的大模型落地存在重大瓶頸,廠商為提升模型能力,持續擴大預訓練資料、訓練算力並擴大模型引數規模,不僅成本高;同時,演算法同質化也會導致資料規模和訓練算力的同質化,最終造成輸出能力的趨同。另一側,大模型能否有效學習客戶資料併成為領域專家,也是一大挑戰。
當前,單一依賴Scaling Law進行集中式暴力訓練已顯露諸多弊端。大模型的“智慧”並非僅受引數規模決定,大模型如何在實際場景中發揮作用,才是企業客戶關注的焦點。要打破模型到應用落地之間的高牆,硬氪近日接觸到的「傳神物聯網」提出,集中式預訓練模式值得重新審視,實時學習和訓練模式更具探索價值。
「傳神物聯網」董事長何恩培指出,大模型在相同引數下,模型演算法和架構更先進,所需訓練算力越小,訓練資料也越少,不僅不影響模型的能力,甚至在部分指標上可超越常規架構大引數的模型。“相比之下,這種採用高效演算法和架構的小引數模型更適合商業落地,而且也可以滿足通用場景的需求。”
傳神創始人何恩培就《基於雙網路架構數推分離大模型的探索與實踐》發表主題演講
基於這一理念,「傳神物聯網」在其釋出的任度大模型,採用了全技術棧自主研發、未使用任何開原始碼和框架的雙網路架構,將推理網路與資料學習網路分離。
其中,客戶資料學習網路如同人類左腦,專注於資料的動態管理與迭代訓練,持續為模型注入知識養分;推理網路則如同人類右腦,作為經大量資料預訓練的基礎網路,具備不錯的推理和泛化能力。
這種雙網路協同工作的設計,可有效降低訓練的算力成本,避免微調導致的基座模型能力退化和泛化能力減弱等問題。同時,資料學習網路還可以學習企業的歷史資料,並實時學習業務運營產生的新資料,兩個網路聯合工作,輸出客戶所需成果。
測試顯示,任度大模型基於數推分離技術,突破了常規大模型技術架構限制,上下文輸入長度不受限,可將億量級使用者資料壓縮至神經網路中,並進行深度知識理解,極為接近 “實時” 資料學習模式。即使是極少量資料更新,也能快速上傳並完成資料壓縮,迭代為企業自己的定製化大模型。
任度大模型共有2.1B和9B兩個版本,在降低算力成本方面,其訓練與推理時的算力成本分別為同等大模型的10%-20%以及25%-50%。
硬氪瞭解到,目前「傳神物聯網」已將雙網路架構的數推分離大模型應用至任度“雙腦”大模型一體機,即將投放市場。該一體機基於數推分離的雙腦模式,可以解決客戶資料離場訓練、向量效果有限及人才投入高等痛點,實現更新資料的本地實時學習,並快速轉化為“企業知識專家”。
針對客戶資料安全和私有化問題,任度“雙腦”大模型一體機可採用本地部署及訓練,無需上傳至公有云,保障了資料隱私安全。同時,其根原創和高性參比的特性,可在一定程度上解決客戶應用大模型過程中的高硬體投入、高能耗及技術安全和軟體漏洞等痛點。