時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

有問題先問它!訊飛星火認知大模型3.5評測:中國版GPT-4來了

2024-02-02 21:27:17


訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT 4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0

一、前言:七大維度全面升級 訊飛星火認知大模型3.5來了

自ChatGPT問世以來,國內科技企業、科研機構紛紛加入大模型賽道,掀起“千模大戰”。

在“大力出奇跡”的路徑下,大模型還需要海量的資料“餵養”以及大規模算力投入,才能真正超越ChatGPT。

如今,國內已被大規模應用的大模型有科大訊飛旗下的星火認知大模型、百度旗下的文心一言(百度文心大模型)、阿里巴巴旗下的通義千問(阿里通義大模型)等等。

近期,科大訊飛再次取得突破,推出了基於首個純國產算力底座“飛行一號”平臺訓練的大模型——訊飛星火V3.5。

據介紹,訊飛星火V3.5整體接近GPT-4 Turbo,其語言理解、數學能力均已經超過GPT-4 Turbo,程式碼能力達到GPT-4 Turbo的 96%,多模態理解達到GPT-4V 的91%。

說了這麼多,那這款純國產的訊飛星火V3.5大模型在各方面的體驗究竟如何?對比國外的Chat GPT4.0又有多大的差距呢?

接下來,我們就對訊飛星火V3.5版本的大模型從語音互動、常規問答、語義理解、邏輯處理、數學能力、程式碼編寫與解釋能力等多個維度,與國內的百度文心一言以及國外的ChatGPT 4.0進行一次全面的測試對比。

二、全新的語音互動體驗:以最自然的方式進行對話 毫無機械感

訊飛星火V3.5的第一大特性,就是提升了大模型的語音互動能力。

在訊飛星火V3.5版的APP介面底部,新增了一個機器人的圖示,點選即進入到全語音互動介面。

在語音互動中,注入了兩種音色輸出,即聆小玥(女聲)、聆飛逸(男聲)。

我們測試了幾個問題,來考察下訊飛3.5的語音互動能力。

首先是訊飛星火 V3.5的對話影片。

訊飛星火 V3.5 的全語音互動體驗極為流暢,首先在音色上,完全消除了“機器感”,幾乎不會出現前後音調不搭的情況,聲音聽上去就像是真人在你旁邊說話一樣。

其次,其AI合成的聲音自然逼真,甚至連語氣詞,例如“嗯”、“這個”、“那個”等都運用的恰到好處。

並且,語音輸出語速適中,該快的時候快,該慢的時候慢,如果有一個外行人在身邊,真的會認為這是一個真人在說話,擬人化程度相當驚人。

另外,在對話中,訊飛星火 V3.5 的反應特迅速,一般都是筆者的話音剛落,它就能立即作出回應,並且對語義的理解能力相當精準,對問題的判斷相當準確,相比其他的語音助手答非所問、自問自答、反應慢半拍的情況,可以說訊飛真正做到了跟人“互動”的程度。

接著是文心一言V4.0的語音互動。

文心一言V4.0在前幾天還是不具備語音互動的,但這兩天也推送了支援語音互動的新版本,我們也來測試一下它的語音互動能力。

在我們的測試中,文心一言V4.0的聲音連貫性比較和諧,幾乎不會出現斷裂和不自然的過渡,但回答的細膩程度不及訊飛星火V3.5,而且一些問題都是直問直答,沒有擴充套件性,並且缺少一些過渡用於,就有點像手機語音助手的那種感覺,聽著會有一些緊巴巴的感覺,給人的感受沒有訊飛那麼自然。

最後是ChatGPT4.0的語音互動。

透過影片我們可以感受到,ChatGPT4.0的語音輸出字句前後也比較自然,但還是會出現一些語調不均的情況,聽著會讓人有些彆扭。

而且,由於網路連線不穩定,在語音交流過程中偶爾會出現等待時間過長的情況。

三、國內外大模型對比測試:多項領域比肩ChatGPT 4.0 全面超越文心一言

接著,為了測試訊飛星火 V3.5在國際中的地位,我們使用國內的另一大模型文心一言和國外的ChatGPT 4.0進行一次全面的測試對比。

1、常規問答

(1)已知問題測試

①中國2020年GDP是多少人民幣

三個大模型的回答準確無誤,訊飛星火 V3.5和文心一言V4.0均給到了各大產業的佔比以及增幅比,不過訊飛分析的更加透徹,說到2020年這一特殊的年份,國內GDP增長的不易和國家正確的決策,能夠深入理解複雜的趨勢和事件。

Chat-GPT4.0則是直接給出了具體的資料,沒有做過多的資訊擴充套件。

②最近一次的東京奧運會的獎牌榜前5名的國家和獎牌數分別是?

第二個問題,只有訊飛星火3.5給出了正確的答案,文心一言則僅給到了前三的國家和獎牌數量,沒有完整地回答問題,而ChatGPT的答案則出現了錯誤(中國共89枚獎牌)。

③全球第一款16GB記憶體的智慧手機是什麼型號?

第三個問題,面對機圈的問題,只有Chat-GPT4.0給到了正確答案,全球第一款16GB記憶體的智慧手機,是2020年年初發布的三星Galaxy S20 Ultra。

(2)未知問題測試

①世界第一高峰與世界第二高峰相差多少米?

對於世界之最這類問題,訊飛星火V3.5給出的是巖面高度差,回答正確,文心一言和Chat-GPT給到的則是雪面高度差,精度一致,沒有任何問題。

2、邏輯推理能力

(1)魯迅為什麼暴打周樹人?

對於“魯迅為什麼暴打周樹人”這種問題,訊飛星火、文心一言和ChatGPT4都能完美避坑,給出了魯迅和周樹人是同一個人的答案。

(2)昨天的當天是明天的什麼?

第二個問題,昨天的當天是明天的什麼?訊飛星火V3.5和Chat-GPT4.0透過邏輯判斷均給出了正確答案,“前天”,而文心一言則給出“昨天的當天是明天的昨天”的答案,回答錯誤。

(3)龍龍的媽媽有4個孩子,其中3個孩子分別叫貝貝,天天和樂樂,請問她的第4個孩子叫什麼?

第三個問題,三個大模型均成功避坑,訊飛和GPT4分析的最簡潔最到位,文心一言則透過一頓邏輯判斷和理解輸出了正確的答案,過程稍有些複雜,不夠簡潔。

(4)臉盆裡面漂浮著一塊冰,請問冰融化之後,臉盆的水面是上升還是下降?

接著是一個物理常識問題,訊飛回答錯誤,文心一言V4.0和GPT4.0均回答正確,冰融化之後,水面既不會上升也不會下降,並且給出了詳細的邏輯分析。

看來,訊飛星火V3.5在初中物理知識方面,相較於Chat-GPT4.0還有點欠缺。

3、數學解題能力

(1)雞兔同籠,頭共67,足共184,問雞兔各幾隻?請一步一步地作答

面對雞兔同籠問題,訊飛和GPT4.0均以二元一次方程計算後給出了正確答案,訊飛星火給到了完整的解題過程,甚至連計算過程都精確的呈現出來,而文心一言和Chat-GPT4.0的回答過程則較為簡略,以推理的過程為主。

(2)如果一個直角三角形的兩條邊長分別是6和8,另一個與它相似的直角三角形邊長分別是3、4及x,那麼x的值是多少?

接著是第二個數學問題,面對這種沒有給到對應數值的兩邊長度,我們一般會分析到兩種不同的可能性,因此這道題的標準答案會有2個,很顯然訊飛星火3.5全都顧及到了,給出了兩個正確的答案。

而文心一言V3.5和Chat GPT4.0只給出了一種正確的可能性。

所以,透過以上測試的數學問題來看,訊飛星火V3.5的解題能力已經在國際中處於領先水平,甚至在部分能力上已經超越了Chat GPT4.0。

4、程式碼能力

現在許多程式設計師也會使用大模型來解決問題,因此在程式碼的編寫和解釋能力上,我們也測試了一番。

(1)程式碼編寫

使用PyQt5搭建-個視窗,點選按鈕之後,有50%的機率把按鈕移動到視窗的隨機位置,還有50%的機率把按鈕的標題改成隨機數。不要有多餘的解釋,直接給出可以執行的程式碼。







在程式碼編寫能力上,三款大模型均能夠精準理解需求,寫出bug的程式,放到直譯器裡完美執行。

(2)解釋程式碼

我們給到一段程式碼讓三個大模型進行解釋,三者均會根據每行的程式碼進行解釋,文心一言給到的解釋要更偏向小白,邏輯非常清晰,新手也能一目瞭然。

訊飛給到的解釋與GPT4.0差不太多,所以在程式碼編輯和解釋能力上,訊飛星火3.5、Chat GPT 4.0大體相當。

5、知識問答:文章提問

為了測試三種大型語言模型對語文理解能力的差異,我們選取了一段高中閱讀理解材料,讓這些模型閱讀並回答相關問題。

透過這種方式,我們可以比較它們在文字理解方面的表現。

我們給到這段文字,讓三款大模型進行閱讀,接著進行提問。

問題一:請問永嘉山水適合隱居的原因是什麼?

第一個問題,訊飛星火3.5給到的原因是最全面的,也是最準確的,從根本上回答了這個問題,文心一言3.5給到的答案也比較準確,不過並沒有訊飛全面。

Chat GPT4.0給到的回答比較深入,也就是說它能夠進一步理解作者所表達的內在思想與含義,也就是說Chat GPT4.0對文字的理解要更加深刻。

問題二:請簡要總結這篇文章的主旨,要求在350字以內。

對於語言的理解,訊飛星火 V3.5 和 GPT-4 在處理自然語言任務時都展現出了合格的理解能力,然而在綜合比較中,GPT-4 在理解和表達方面顯得更為精準與細膩。

6、文生圖能力

在多模態能力上,我們測試對比了大模型文生圖的能力,根據描述的文字畫出圖片。

可以看到,三款大模型均能夠理解文字所表達的意思,並畫出準確的裝修效果圖。

不過訊飛星火V3.5和Chat GPT4.0繪製的圖片細膩程度和精美程度上均優於文心一言3.5,二者在文生圖的能力上,不相仲伯。

接著我們提高了難度,讓三款大模型在上一幅圖的基礎上進行二次創作,雖然均不能還原上一幅圖中的全部樣貌,但訊飛星火V3.5和Chat GPT4.0均能以接近上一幅圖的場景進行二次創作,並精確理解了“牆面上的畫”指的是什麼內容。

文心一言V4.0應該說是理解了題目中的一般要求,把“春江水暖鴨先知”的含義放在了整個畫面當中,並沒有理解“牆面上的畫中”是什麼東西,導致與要求的本意產生了較大的偏差,也讓最終的呈現效果與預期有一定的出入。

反觀訊飛星火V3.5和Chat GPT4.0,在語義理解能力方面表現出色,兩者的能力接近,甚至達到了相似的水平。

四、總結:訊飛星火V3.5與Chat GPT4 不相仲伯

經過我們對三款大模型的深度體驗與對比測試,我們做出以下總結:

在國際大模型比拼中,訊飛星火V3.5不僅在常規問答、邏輯推理和數學解題方面與Chat GPT 4.0並駕齊驅,甚至在某些方面超越了後者,尤其在解答語言相關的問題時,訊飛星火V3.5展現出了更深厚的理解能力和更廣泛的知識面。

在數學能力上,訊飛星火V3.5更注重解題的過程,告訴你解題的所有步驟,就算是沒有基礎知識也能一看便會,而文心一言和GPT則更偏向於推理的過程,資料偏理科的那種。

就數學能力而言,國內的訊飛星火和文心一言這兩款大模型的解題能力已經在國際中處於領先水平,甚至在部分能力上已經超越了Chat GPT 4.0。

多模態能力上,程式碼編寫與解釋、作圖等測試,訊飛和GPT 4.0均以精確的理解力和較為複雜的作圖能力完成了要求,不僅能夠準確理解所提供的資訊,還能夠在作圖任務中細緻地還原或創造出接近描述的細節,展現出了它們的強大的理解能力和創造能力。

而文心一言雖然也能完成基本的任務,但在細節處理和深度理解上,與二者略有差距,很顯然它在多模態互動方面的潛力還未完全發揮出來。

綜合而言,訊飛星火認知大模型V3.5在各項測試中已相當出色,展現出其在多個領域的領先優勢,儘管與ChatGPT 4.0在某些方面還有一定差距,但可以期待,隨著科大訊飛在技術上的持續進步,未來的訊飛星火認知大模型將逐漸走到國際領先水平,全面對標GPT-4。

在當前國內人工智慧領域競爭愈發激烈的背景下,我們有足夠的信心和理由相信,訊飛星火將憑藉其先進的語音技術和日益累積的技術演算法,在不久的將來不僅能夠追趕上 GPT-4 的能力水平,還將進一步推動中國在全球人工智慧領域的發展和領導地位,走向新的階梯。

熱門資訊
  • 美媒:美被困女宇航員創太空行走新紀錄 | 2025-02-01 23:22:19
  • 三星Exynos 2500晶片確認於2025年下半年推出:效能不及驍龍8 Elite | 2025-02-01 23:22:23
  • 越南進口韓國無人機大批墜毀?很多東西不是誰都能玩的 | 2025-02-01 23:22:32
  • 中科院打臉谷歌:普通電腦追上量子優越性,幾小時搞定原本要一萬年的計算 | 2025-02-01 23:54:06
  • 最狠環比跌掉七成 新勢力首月銷量集體下跌 | 2025-02-02 00:03:05
  • OpenAI CEO承認DeepSeek削弱其地位 稱站在了歷史錯誤一邊 | 2025-02-02 00:08:39
  • 華為雲支撐,生產級DeepSeek推理服務上線 | 2025-02-02 00:12:44
  • OpenAI坐不住,說明中國大模型路走通了 | 2025-02-02 00:20:56
  • 被困太空近8個月,美國宇航員“走出”國際空間站,特朗普:快去接回來 | 2025-02-02 00:25:12
  • Nat Genet | 相向啟動子的基因調控 | 2025-02-02 00:48:43
  • 比98吋不止大2吋 百吋電視為什麼能霸榜大屏市場? | 2025-02-02 02:52:38
  • Mol Cell | 楊文/徐穎潔揭示TCAIM特異性調控OGDH並影響線粒體代謝的機制 | 2025-02-02 04:48:57
  • NASA及其合作伙伴批准了公理4號任務機組名單 | 2025-02-02 05:17:41
  • ASML將發貨最新EUV光刻機 支援後2nm工藝時代! | 2025-02-02 05:17:45
  • 突破70多年來的傳統認知 他們發現距地球16萬公里的“太空合聲” | 2025-02-02 05:38:01
  • 中國又一重磅技術突破,美國看完氣暈了,這還讓我怎麼追? | 2025-02-02 05:48:27
  • 傳NVIDIA GeForce RTX 5060和RTX 5060 Ti將於今年3月釋出 | 2025-02-02 05:58:28
  • Meta首席科學家楊立昆痛批矽谷“常見病”:一種錯誤的優越感 | 2025-02-02 06:08:06
  • 美國三大巨頭宣佈接入DeepSeek!NASA卻下禁令 | 2025-02-02 06:35:03
  • 我問#中國電信如何保持領先#,Deepseek這麼回答—— | 2025-02-02 06:42:30
  • 斯諾登就 GeForce RTX 50 的定價和價值怒斥英偉達 | 2025-02-02 06:59:08
  • NAR | 高珊團隊揭示了6mA甲基化酶AMT1的自調控和轉錄調控機制 | 2025-02-02 08:09:46
  • 賣掉北京2套房,4小時拍板落戶江陰!這個中科院女博士回鄉幹出了全球第一 | 假期閱讀 | 2025-02-02 08:09:48
  • 東南大學李全院士團隊Angew: 基於機械基團誘導自由基聚合的力可訓練型液晶彈性體 | 2025-02-02 08:43:14
  • 上海科技大學劉巍AFM:纖維增強超薄固體聚合物電解質實現高能量密度固態鋰金屬電池 | 2025-02-02 09:04:39
  • 小米交付超2萬輛,小鵬再破3萬輛超越理想 | 2025-02-02 09:14:22
  • LeCun痛批矽谷傲慢病!圈內爆火長文 | 2025-02-02 09:17:28
  • 雷諾抬價,日產本田合併生變 | 2025-02-02 09:17:30
  • “木頭姐”談DeepSeek啟示:在AI領域成功不用那麼燒錢 | 2025-02-02 09:17:36
  • 全球首次!沃達豐使用普通智慧手機完成衛星視訊通話,理論上支援任何4G/5G手機【附衛星網際網路行業發展現狀】 | 2025-02-02 09:23:30
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們