時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

國內大模型與GPT-4較高下:語言知識能力接近,複雜推理仍是短板

2024-01-30 21:28:01

1月30日,上海人工智慧實驗室釋出了大模型開源開放評測體系司南(OpenCompass2.0),同時在對部分主流大模型評測診斷的基礎上,揭曉了年度大模型評測榜單,提到了國內大模型的優勢與短板。

根據評測,複雜推理相關能力是大模型普遍面臨的難題,國內大模型相比於GPT-4還存在差距,這是大模型在金融、工業等要求可靠的場景落地需要的關鍵能力。不過,在中文場景下國內最新的大模型已展現出獨特優勢,尤其在語言、知識維度上接近GPT-4 Turbo的水平。

在客觀評測能力排行上,整體來看大語言模型整體能力仍有較大提升空間。在百分制的客觀評測基準中,GPT-4 Turbo(升級版GPT-4)在各項評測中均獲最佳表現,也僅達到61.8分的及格水平。

OpenCompass2.0的分析結果顯示,不少國內廠商近期新發布的模型在多個能力維度上正在快速縮小與GPT-4 Turbo的差距,包括智譜清言GLM-4、阿里巴巴Qwen-Max、文心一言4.0的排名較為靠前,反映了這些新模型具有較為均衡和全面的效能。

值得一提的是,此次大模型排行並未納入所有大模型企業,各家迭代版本時間不盡相同。上海人工智慧實驗室方面表示,更多企業在陸續釋出新的大模型,一些企業近期也有釋出新版本的計劃,所有這些新的大模型會進入下一期榜單上。

根據客觀評測結果,部分大模型分數與GPT-4 Turbo已接近,但這並不意味著國內大模型與GPT-4 Turbo差距很小。上海人工智慧實驗室青年科學家陳愷對第一財經解釋,分數是由不同的維度組合而來,國內的大模型和GPT-4 Turbo在不同的維度上表現並不一樣,有些維度如知識、語言上可能打得有來有回,有些維度如推理上還存在著一定的差距,評測本身也會有侷限性。

“出什麼樣的題目去考察知識邊界會有區別,如果都出競賽題,可能一個0分一個100分,出高考題那可能就是一個80分,一個90分。”陳愷表示,評測是一個整體普適性的比較,作為一個綜合評測在難度上會相對平衡,雖然國內大模型與GPT-4的差距在縮小,但也不能忽視我們在複雜推理場景有大的進步空間。

從具體指標來看各個大模型的能力或許更為全面。OpenCompass2.0有客觀評測和主觀評測,大致類似考試中的客觀題與主觀題,總體上從語言、知識、創作、推理、數學、程式碼、智慧體等方面對大模型的能力進行評測,在圖中能力項顏色條越長代表能力越高。

評測顯示,推理、數學、程式碼、智慧體是國內大模型的短板。GPT-4 Turbo在涉及複雜推理的場景雖然亦有提升空間,但已明顯領先於國內的商業模型和開源模型。國內大模型要整體趕超GPT-4 Turbo等國際頂尖的大模型,在複雜推理、可靠地解決複雜問題等方面,仍需下大功夫。

複雜推理會如何影響大模型的能力?上海人工智慧實驗室領軍科學家林達華對第一財經介紹,這關係到落地應用時大模型的可靠性,例如在金融這樣的場景下不能在數字上有差錯,會對數學上的可靠性有較高的要求。另外隨著大模型進入商用,若要分析一家公司的財報,甚至是工業領域要去分析一些技術文件,這時數學方面的計算能力就會成為一個壁壘。

“現在很多大模型的應用場景是客服、聊天等等,在聊天場景一本正經胡說八道影響不太大,但它很難在非常嚴肅的商業場合去落地。”林達華表示。

在與GPT-4 Turbo的比較中,國內大模型也有一些優勢,如在主觀評測中,國內模型在中文場景下相比海外模型具有效能優勢,在中文語言理解、中文知識和中文創作上,國內商業模型相比GPT-4 Turbo具有極強的競爭力,甚至部分模型實現了部分維度上對GPT-4 Turbo的超越。

作為大模型的評測體系,OpenCompass於2023年7月推出,是Meta官方推薦的四個能力評測工具之一,且是其中唯一由中國機構開發的評測工具。林達華介紹,評測體系借鑑的是高考的經驗,評測時這些模型題目並未公開,會避免一些模型對著題目“刷題”從而存在作弊現象,最後高考成績某種意義上是相對較公允的評價。到榜單釋出時,會將這一期榜單的題目公開,這樣相關各方可以驗證評測的分數。

林達華認為,關於評測,排名可能並不是最需要關注的,在榜單上一時的排名高或低並不能真正反映大模型的能力,評測的真正價值是幫助機構和企業發現自家大模型進一步需要努力的方向。

熱門資訊
  • 9999元 聯想ThinkPad T14s AI銳龍版上市:首發銳龍AI 7 PRO 360 | 2024-12-03 16:37:42
  • 哈佛研究:缺氧能延壽50%,中國科學家反對!還需另一關鍵輔助 | 2024-12-03 16:47:12
  • 我國新一代載人運載火箭、重型火箭研製工作有序推進 | 2024-12-03 16:47:16
  • 黑鯊鳳鳴頭戴式遊戲耳機“霜銀白”配色發售,229 元 | 2024-12-03 16:51:22
  • 小米推出米家迷你洗衣機洗烘 1kg,預售價 1999 元 | 2024-12-03 17:01:51
  • 榮耀平板 V9 外觀曝光:三款配色真機圖公佈,後蓋圓環亮眼 | 2024-12-03 17:12:57
  • 國產大飛機 C919 商業首航重慶,執飛東航“滬渝快線” | 2024-12-03 18:21:04
  • 小米推出米家熱泵烘乾機 10kg 超薄全嵌款,3599 元 | 2024-12-03 18:38:31
  • 聯想新品採用匯頂方案組合:含 YOGA Pad Pro 指紋、配件晶片等 | 2024-12-03 18:38:33
  • 燒水就能發射的火箭,沒騙資金還在對標星艦 | 2024-12-03 18:42:53
  • 未來麒麟晶片或將按照 9030、9040 規律迭代 | 2024-12-03 18:42:56
  • 來玩!電腦報·2024校園嘉年華到廣州啦 | 2024-12-03 18:54:58
  • 銳龍7 8700G VS. i7-14700:AI大潮下 誰是更出色的商用桌上型電腦處理器! | 2024-12-03 19:28:44
  • 國產GPU龍頭景嘉微最新公告:新款圖形處理晶片完成流片、封裝 | 2024-12-03 19:43:34
  • 微星新款Claw 8 AI+遊戲掌機發布:頂配Ultra 7-258V | 2024-12-03 20:00:50
  • LG Q9家用管家機器人計劃明年推出 整合GPT-4o AI模型 | 2024-12-03 20:07:24
  • 三星在韓國推出AI訂閱俱樂部服務 使用者可租賃智慧家電 | 2024-12-03 20:07:26
  • AMD RX8800 XT顯示卡或明年1月釋出 較前代旗艦功耗低25% | 2024-12-03 20:07:29
  • 榮耀平板V9三款配色及後蓋設計曝光 鏡頭DECO採用圓形設計 | 2024-12-03 20:07:30
  • 三星AR眼鏡原型或在明年1月展示 僅重50g並支援Gemini AI | 2024-12-03 20:07:32
  • 美國又來“卡脖子” 我們不要慌 | 2024-12-03 20:33:17
  • 位元組跳動豆包上線圖片理解,大模型走向多模態 | 2024-12-03 20:33:26
  • 美國晶片慎用!中國四大行業協會發聲 | 2024-12-03 20:34:36
  • 神舟十九號飛行滿月,將出艙活動!王亞平亮相,或無緣神舟二十號? | 2024-12-03 21:01:24
  • 《中國科學基金》 | 鄂維南院士:2024年諾貝爾物理學獎評述 | 2024-12-03 21:59:27
  • 傳小米明年釋出新款OLED安卓平板 OLED筆電正在調研 | 2024-12-03 22:02:51
  • 中國噸級以上eVTOL日本首飛成功 | 2024-12-03 22:12:00
  • 低空經濟“飛”出新賽道 長虹推動“低空+”應用新場景加速落地 | 2024-12-03 22:26:12
  • 韓斌、寧光等6名上海科技工作者獲2024年度何梁何利基金獎 | 2024-12-03 22:26:15
  • 海南商業航天發射場將形成高密度發射態勢 2025年月月有發射 | 2024-12-03 22:38:31
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們