1月30日,上海人工智慧實驗室釋出了大模型開源開放評測體系司南(OpenCompass2.0),同時在對部分主流大模型評測診斷的基礎上,揭曉了年度大模型評測榜單,提到了國內大模型的優勢與短板。
根據評測,複雜推理相關能力是大模型普遍面臨的難題,國內大模型相比於GPT-4還存在差距,這是大模型在金融、工業等要求可靠的場景落地需要的關鍵能力。不過,在中文場景下國內最新的大模型已展現出獨特優勢,尤其在語言、知識維度上接近GPT-4 Turbo的水平。
在客觀評測能力排行上,整體來看大語言模型整體能力仍有較大提升空間。在百分制的客觀評測基準中,GPT-4 Turbo(升級版GPT-4)在各項評測中均獲最佳表現,也僅達到61.8分的及格水平。
OpenCompass2.0的分析結果顯示,不少國內廠商近期新發布的模型在多個能力維度上正在快速縮小與GPT-4 Turbo的差距,包括智譜清言GLM-4、阿里巴巴Qwen-Max、文心一言4.0的排名較為靠前,反映了這些新模型具有較為均衡和全面的效能。
值得一提的是,此次大模型排行並未納入所有大模型企業,各家迭代版本時間不盡相同。上海人工智慧實驗室方面表示,更多企業在陸續釋出新的大模型,一些企業近期也有釋出新版本的計劃,所有這些新的大模型會進入下一期榜單上。
根據客觀評測結果,部分大模型分數與GPT-4 Turbo已接近,但這並不意味著國內大模型與GPT-4 Turbo差距很小。上海人工智慧實驗室青年科學家陳愷對第一財經解釋,分數是由不同的維度組合而來,國內的大模型和GPT-4 Turbo在不同的維度上表現並不一樣,有些維度如知識、語言上可能打得有來有回,有些維度如推理上還存在著一定的差距,評測本身也會有侷限性。
“出什麼樣的題目去考察知識邊界會有區別,如果都出競賽題,可能一個0分一個100分,出高考題那可能就是一個80分,一個90分。”陳愷表示,評測是一個整體普適性的比較,作為一個綜合評測在難度上會相對平衡,雖然國內大模型與GPT-4的差距在縮小,但也不能忽視我們在複雜推理場景有大的進步空間。
從具體指標來看各個大模型的能力或許更為全面。OpenCompass2.0有客觀評測和主觀評測,大致類似考試中的客觀題與主觀題,總體上從語言、知識、創作、推理、數學、程式碼、智慧體等方面對大模型的能力進行評測,在圖中能力項顏色條越長代表能力越高。
評測顯示,推理、數學、程式碼、智慧體是國內大模型的短板。GPT-4 Turbo在涉及複雜推理的場景雖然亦有提升空間,但已明顯領先於國內的商業模型和開源模型。國內大模型要整體趕超GPT-4 Turbo等國際頂尖的大模型,在複雜推理、可靠地解決複雜問題等方面,仍需下大功夫。
複雜推理會如何影響大模型的能力?上海人工智慧實驗室領軍科學家林達華對第一財經介紹,這關係到落地應用時大模型的可靠性,例如在金融這樣的場景下不能在數字上有差錯,會對數學上的可靠性有較高的要求。另外隨著大模型進入商用,若要分析一家公司的財報,甚至是工業領域要去分析一些技術文件,這時數學方面的計算能力就會成為一個壁壘。
“現在很多大模型的應用場景是客服、聊天等等,在聊天場景一本正經胡說八道影響不太大,但它很難在非常嚴肅的商業場合去落地。”林達華表示。
在與GPT-4 Turbo的比較中,國內大模型也有一些優勢,如在主觀評測中,國內模型在中文場景下相比海外模型具有效能優勢,在中文語言理解、中文知識和中文創作上,國內商業模型相比GPT-4 Turbo具有極強的競爭力,甚至部分模型實現了部分維度上對GPT-4 Turbo的超越。
作為大模型的評測體系,OpenCompass於2023年7月推出,是Meta官方推薦的四個能力評測工具之一,且是其中唯一由中國機構開發的評測工具。林達華介紹,評測體系借鑑的是高考的經驗,評測時這些模型題目並未公開,會避免一些模型對著題目“刷題”從而存在作弊現象,最後高考成績某種意義上是相對較公允的評價。到榜單釋出時,會將這一期榜單的題目公開,這樣相關各方可以驗證評測的分數。
林達華認為,關於評測,排名可能並不是最需要關注的,在榜單上一時的排名高或低並不能真正反映大模型的能力,評測的真正價值是幫助機構和企業發現自家大模型進一步需要努力的方向。