時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

訊飛星火V3.5實測體驗:多維度領先國內水平 與GPT-4不分伯仲

2024-02-02 21:40:40

2024年1月30日,釋出了首個基於全國產化算力平臺訓練的全民開放大模型——訊飛星火V3.5,相比上一代模型在語言理解、文字生成、知識問答、邏輯推理、數學能力、程式碼能力和能力等七個方面進行了全面升級。特別是在語言理解、數學能力方面已經超過 GPT-4 Turbo,進一步夯實了中國“最聰明”的大模型的地位。

  在釋出會現場,科大訊飛工作人員也展示了與訊飛星火V3.5的人機互動體驗,它不僅能夠清晰理解所說的含義,同時還能夠實現多輪對話,完全感覺就是在“嘮嗑”一般,並且還讓訊飛星火V3.5有了一定的情緒感知,完全體會不到機器人的冰冷。

  當主持人表達想要去哈爾濱旅行的想法後,訊飛星火V3.5快速為主持人定製了旅遊攻略,還催促他趕快買票,因為此時正是春運時期,所有票都非常緊俏,這樣的邏輯能力也是相當給力的。

  所以在全程看完訊飛星火V3.5的釋出會後,筆者就迫不及待的想要體驗一下它的實力,並且將直觀的與當下同樣火爆的ChatGPT 最 新的 GPT-4、文心一言4.0幾個大模型進行比較,重點從語言理解、數學能力、多模態、辦公支援等多個維度來具體分析訊飛星火V3.5的真實表現。(注:目前除了訊飛星火V3.5外,其它兩個對比大模型都是需要付費的)

  語言理解

  題目:大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅櫃子裡九舅借十舅發給十一舅工資的1000元。

  問:1、究竟誰是小偷?2、錢本來是誰的?

  其實這道題主要考驗的是一個關係邏輯推理問題,我們看看幾個大模型都是如何回答的。

  訊飛星火V3.5

  GPT-4

  文心一言

  從對比中看出,目前各個大模型其實都是有一定邏輯推理能力的,但是在繞來繞去的文字裡,只有訊飛星火V3.5給出了正確的結果,四舅偷了錢,錢是九舅的。而且訊飛星火V3.5的分析也是非常簡潔明瞭,讓使用者很快就能明白其中關鍵緣由。

  下面再出一道關於空間邏輯的題目。

  題目:我是一名在校學生,圖書館在學校的中心位,實驗樓在圖書館的南邊,學生活動中心在學校的北邊,教學樓和體育館分別在學生活動中心的東邊和西邊,食堂在圖書館的東邊,現在我在教學樓上完課需要去實驗樓做實驗,應該怎麼走?

  根據提示,筆者簡單的畫了一張草圖,方便大家對照各個大模型的路線來判斷對錯。

  訊飛星火V3.5

  GPT-4

  文心一言

  對比之下,三個大模型的回答均是正確的,但是作為使用者,我更希望得到精簡的答案,能夠快速告訴我具體路線。所以從回答的方式來說,筆者更喜歡訊飛星火V3.5和GPT-4,而文心一言有點囉嗦了。

  數學能力

  題目:河上有拋物線型拱橋,當水面距拱頂5米時,水面寬度為8米,一小船寬4米,高2米,載貨後船露出水面的部分高0.75米,問水面上漲到與拋物線拱頂距多少時,小船開始不能通行?

  訊飛星火V3.5

  GPT-4

  文心一言

  單純的從答案上對比,訊飛星火V3.5和GPT-4(四分之五就不能換算一下麼?)的答案均正確,而文心一言的答案是錯誤的,雖然它的講解是最詳細的,但是數學畢竟需要的是嚴謹。不過在給學生講題的過程中將你的邏輯思維傳遞給學生時,要求是連貫性,能夠引導學生學會這道題。所以從這個方面來說,訊飛星火V3.5相比GPT-4顯然更勝一籌, 能夠一步步透過引導思維來分析題,解答題,最終呈現正確的結果。

  辦公支援

  現如今越來越多的行業開始對接大模型,其目的就是提供更加高效的生產力。所以在辦公支援的測試中,我們加入了PPT製作、程式碼、文案編輯等幾個測試。

  首先對於很多寫程式碼的程式設計師,很多都開始使用AI大模型來輔助完善程式碼工作,這也是大模型應用落地非常廣的使用場景。筆者分別向訊飛星火V3.5、GPT-4、文心一言提出展示一個網站的CSS和JavaScript中的粘性標題的程式碼片段。結果如下:

  訊飛星火V3.5

  GPT-4

  文心一言

  從反饋的程式碼來看,三個大模型對程式碼的編寫都是很在行的,不過訊飛星火V3.5給出的程式碼格式是最標準的,輸出的內容更加豐富,考慮的情況最多,並且格式簡潔清爽。而文心一言除了內容豐富外,還增加了重點程式碼的備註說明,這個能夠給初學者提供不小的幫助,是非常人性化的。

  另外,在作文水平方面,也是展示大模型對語言組織、文采方面的能力。筆者分別讓三個大模型寫一篇關於春節的作文,看看訊飛星火V3.5、GPT-4、文心一言誰更出色。

  訊飛星火V3.5

  GPT-4

  文心一言

  從匯出的結果看,GPT-4似乎對中國的作文還有比較深的誤解,整個格式均不符合我們作文的方式。訊飛星火V3.5和文心一言比起來,訊飛星火V3.5的作文內容更加的豐富,文采更加優秀,應該更能打動閱卷老師。

  多模態能力

  透過文字需求生成圖片是很多做視覺創意、設計師的工作,也是大模型多模態的基礎能力。首先筆者讓訊飛星火V3.5、GPT-4和文心一言就“獨在異鄉為異客,每逢佳節倍思親。遙知兄弟登高處,遍插茱萸少一人”分別做了一幅畫。

  訊飛星火V3.5很快就生成了一副作品,登高望遠,整個畫面層次感很強,基本符合了詩中的含義。

  而GPT-4顯示將整首詩的含義進行了解析,畫面風格也更加符合詩中有些淒涼的情景,包括手中的茱萸,細節感表現要比訊飛星火V3.5強不少,畫面質感也十分不錯。

  文心一言直接生成了四幅作品,可選餘地倒是挺多。不過對整首詩的含義理解就沒有那麼深刻,僅有一張圖將登高望遠那種淒涼的感覺展現了出來,同樣也是沒有GPT-4那麼細緻。

  接下來又要求它們分別展現一艘豪華遊輪停泊在城市港口,時間為黃昏,遠處有城市,看看三個大模型的表現。

  三個大模型所展示的畫均符合題目要求,不過仔細看文心一言和GPT-4生成的圖片立體感更強烈一些,更有視覺衝擊感。文心一言同樣還是一次性生成了四張圖片,給使用者更多的選擇空間。而表現最 好的是GPT-4,圖片內容非常豐富,展現了太陽即將落下的夕陽,港口密密麻麻的船隻,包括城市高樓外觀多樣性的渲染也都非常清晰,可以說是毫無懸念的勝出。

  接下來再試試圖生文的能力。

  訊飛星火V3.5的圖片識別能力還是非常強的,這個三室兩廳的平面圖分析的十分到位,並每個房間的位置和東西擺放介紹的很清楚,沒有明顯的錯誤出現。

  而GPT-4對戶型的理解完全的錯誤了,比如它可能將書房看成了入戶走廊,餐廳的旁邊其實是衛生間,它誤認為是廚房。另外GPT-4可能想盡量多體現一些細節,像餐廳裡的椅子是六把,它識別成了四把等等。

  所以總體上來說,在多模態能力方面,訊飛星火V3.5和GPT-4基本是不分伯仲,兩者實際使用體驗都非常不錯。

  再看看文心一言在圖生文方面就是比較欠缺的了,整個房間方位並沒有按照圖片所示,更像是識別了一張戶型圖,然後將一些戶型圖基本資訊進行了填充,與圖片完全不匹配,

  全語音互動

  最後筆者也跟釋出會一樣,與訊飛星火V3.5嘮了嘮嗑,體驗一下本次大模型其中的亮點全語音互動。和我們理解的一條一條的互動方式不同,訊飛星火V3.5更像是在和閨蜜聊天。

  筆者分別對訊飛星火V3.5和GPT-4嘮了一樣的嗑,整體語音識別速度明顯感覺出訊飛星火V3.5更加的快捷。同時在語音識別準確率和熱點認知上,訊飛星火V3.5也更加準確,明白了使用者想去哈爾濱玩的想法,並給出具體建議。

  而GPT-4則將“爾濱”的暱稱給識別成“耳冰”,解釋成耳朵按摩和耳部療法,雖然也是一種放鬆方式 ,但完全不是使用者想要的答案。

  透過對比綜合來說,全新發布的訊飛星火V3.5的綜合實力又提升了一大步,並且在很多方面已經趕上,甚至超越了GPT-4的表現,尤其是在邏輯推理、數學能力、語音互動這幾個方面,更加符合中國人的使用習慣。

  不過在文生圖這個環節中,訊飛星火V3.5還是有很大提升空間的,比如遍插茱萸少一人這句詩就沒能很好的展現在圖片中,而GPT-4還是能比較抓住裡面的細節,展現給使用者。另外文心一言在文生圖方面同樣表現要優於訊飛星火V3.5,畫面真實感更強,更符合使用者的需求。

  AI大模型可以說是為了人工智慧最堅實的基礎,只有把地基搭好,才能實現未來在人工智慧上面的彎道超車。我們也相信在2024年,訊飛星火有實力趕上GPT-4的發展程序,向世界展示真正的中國實力。

熱門資訊
  • 水凝膠,新用途,又一篇Nature Nanotechnology! | 2024-02-12 13:00:01
  • 挑戰生命定義:諾獎得主全新發現,人體記憶體在前所未見的“病毒樣分子” | 2024-02-12 13:49:34
  • 運營商財經網康釗:俄羅斯突破封鎖買入大批美歐晶片? | 2024-02-12 13:49:44
  • Nature重磅:鄧子厚等人發現核因子ID3賦予巨噬細胞強大的抗癌能力 | 2024-02-12 13:54:20
  • 東海實驗室衛星海洋智慧物聯協同創新中心正式成立! | 2024-02-12 13:54:23
  • 為什麼人類能看到狗看不到的顏色?新研究解釋了原因 | 2024-02-12 13:54:29
  • 6G發展大局已定?美國35.2%排名第二,日本第三,中國呢? | 2024-02-12 13:54:31
  • 清華大學取得微波等離子體激發裝置專利,能實現大氣壓下大體積微波等離子體的激發和維持 | 2024-02-12 13:55:36
  • Nat Commun | 浙江大學蔡秀軍/餘日勝等合作開發用於檢測和診斷局肝臟灶性病變的新方法 | 2024-02-12 13:55:46
  • 3期臨床失敗,盧冠達創立的合成生物明星公司Synlogic裁員90%,停止執行 | 2024-02-12 13:55:48
  • 貝爾對SPRINT X飛機的高速傾轉旋翼機技術進行地面測試 | 2024-02-12 13:55:51
  • Plant Physiol. | 華中農業大學別之龍團隊利用多基因編輯揭示CsMLO基因家族在黃瓜白粉病抗性中的功能 | 2024-02-12 14:23:18
  • 高通公司申請用於節省儲存器重新整理功率的部分刷新技術專利,可減小自動重新整理所消耗的功率 | 2024-02-12 14:23:20
  • 長鑫儲存申請磁隨機儲存器及其製備方法專利,可提升儲存單元的排布密度 | 2024-02-12 14:51:52
  • 機械革命極光 Pro 遊戲本新增i5-13450HX + RTX 4060版本,5799元 | 2024-02-12 15:03:01
  • 山大團隊借鑑荷葉“自清潔效應”,將單晶鈣鈦礦電池效率提至23.4% | 2024-02-12 15:21:47
  • Oxford PV公司宣佈電池板轉換效率達到25%,執行第一年只損失約1%效率 | 2024-02-12 15:21:52
  • 入選中央委員和中央候補委員的兩院院士! | 2024-02-12 15:36:35
  • 衛星產業最強龍頭,背靠航天科技,市佔率超80%,極具稀缺性! | 2024-02-12 15:36:37
  • 北大團隊開發硬磁導電覆合材料,實現感測效能的動態調節,助力解決靈敏度與感測範圍的矛盾 | 2024-02-12 15:41:58
  • PC鮮辣報:曝榮耀遊戲本將回歸 微星掌機國行開售 | 2024-02-12 16:33:09
  • 科學家揭示龍眼“退糖”分子機制,為提高果肉品質提供新方法 | 2024-02-12 16:39:48
  • 英偉達正準備RTX 2000 Ada 新款入門級工作站顯示卡 | 2024-02-12 16:44:35
  • 影片剪輯還是intel強!13代i7-1370P主機,MOREFINE摩方S600實測 | 2024-02-12 16:47:09
  • 理解RTX 4070 Ti SUPER與Ada架構 老黃的“精準刀法”是如何實現的? | 2024-02-12 16:47:13
  • 飛行了兩百多億公里,旅行者一號拍攝的地球照片,讓人類陷入沉思 | 2024-02-12 16:49:59
  • 外媒:中國給“超級高鐵”研發“踩油門” | 2024-02-12 16:53:18
  • 戴森推出全新吹風機 相比於前代重量大大減輕 | 2024-02-12 17:00:12
  • 深度長文:解讀平行宇宙,讓你瘋狂的一種存在! | 2024-02-12 17:02:20
  • 高性價比的辦公筆記本:AOC N300 | 2024-02-12 17:17:50
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們