有問題先問它！訊飛星火認知大模型3.5評測：中國版GPT-4來了

訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT 4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0

一、前言：七大維度全面升級訊飛星火認知大模型3.5來了

自ChatGPT問世以來，國內科技企業、科研機構紛紛加入大模型賽道，掀起“千模大戰”。

在“大力出奇跡”的路徑下，大模型還需要海量的資料“餵養”以及大規模算力投入，才能真正超越ChatGPT。

如今，國內已被大規模應用的大模型有科大訊飛旗下的星火認知大模型、百度旗下的文心一言（百度文心大模型）、阿里巴巴旗下的通義千問（阿里通義大模型）等等。

近期，科大訊飛再次取得突破，推出了基於首個純國產算力底座“飛行一號”平臺訓練的大模型——訊飛星火V3.5。

據介紹，訊飛星火V3.5整體接近GPT-4 Turbo，其語言理解、數學能力均已經超過GPT-4 Turbo，程式碼能力達到GPT-4 Turbo的 96%，多模態理解達到GPT-4V 的91%。

說了這麼多，那這款純國產的訊飛星火V3.5大模型在各方面的體驗究竟如何？對比國外的Chat GPT4.0又有多大的差距呢？

接下來，我們就對訊飛星火V3.5版本的大模型從語音互動、常規問答、語義理解、邏輯處理、數學能力、程式碼編寫與解釋能力等多個維度，與國內的百度文心一言以及國外的ChatGPT 4.0進行一次全面的測試對比。

二、全新的語音互動體驗：以最自然的方式進行對話毫無機械感

訊飛星火V3.5的第一大特性，就是提升了大模型的語音互動能力。

在訊飛星火V3.5版的APP介面底部，新增了一個機器人的圖示，點選即進入到全語音互動介面。

在語音互動中，注入了兩種音色輸出，即聆小玥（女聲）、聆飛逸（男聲）。

我們測試了幾個問題，來考察下訊飛3.5的語音互動能力。

首先是訊飛星火 V3.5的對話影片。

訊飛星火 V3.5 的全語音互動體驗極為流暢，首先在音色上，完全消除了“機器感”，幾乎不會出現前後音調不搭的情況，聲音聽上去就像是真人在你旁邊說話一樣。

其次，其AI合成的聲音自然逼真，甚至連語氣詞，例如“嗯”、“這個”、“那個”等都運用的恰到好處。

並且，語音輸出語速適中，該快的時候快，該慢的時候慢，如果有一個外行人在身邊，真的會認為這是一個真人在說話，擬人化程度相當驚人。

另外，在對話中，訊飛星火 V3.5 的反應特迅速，一般都是筆者的話音剛落，它就能立即作出回應，並且對語義的理解能力相當精準，對問題的判斷相當準確，相比其他的語音助手答非所問、自問自答、反應慢半拍的情況，可以說訊飛真正做到了跟人“互動”的程度。

接著是文心一言V4.0的語音互動。

文心一言V4.0在前幾天還是不具備語音互動的，但這兩天也推送了支援語音互動的新版本，我們也來測試一下它的語音互動能力。

在我們的測試中，文心一言V4.0的聲音連貫性比較和諧，幾乎不會出現斷裂和不自然的過渡，但回答的細膩程度不及訊飛星火V3.5，而且一些問題都是直問直答，沒有擴充套件性，並且缺少一些過渡用於，就有點像手機語音助手的那種感覺，聽著會有一些緊巴巴的感覺，給人的感受沒有訊飛那麼自然。

最後是ChatGPT4.0的語音互動。

透過影片我們可以感受到，ChatGPT4.0的語音輸出字句前後也比較自然，但還是會出現一些語調不均的情況，聽著會讓人有些彆扭。

而且，由於網路連線不穩定，在語音交流過程中偶爾會出現等待時間過長的情況。

三、國內外大模型對比測試：多項領域比肩ChatGPT 4.0 全面超越文心一言

接著，為了測試訊飛星火 V3.5在國際中的地位，我們使用國內的另一大模型文心一言和國外的ChatGPT 4.0進行一次全面的測試對比。

1、常規問答

（1）已知問題測試

①中國2020年GDP是多少人民幣

三個大模型的回答準確無誤，訊飛星火 V3.5和文心一言V4.0均給到了各大產業的佔比以及增幅比，不過訊飛分析的更加透徹，說到2020年這一特殊的年份，國內GDP增長的不易和國家正確的決策，能夠深入理解複雜的趨勢和事件。

Chat-GPT4.0則是直接給出了具體的資料，沒有做過多的資訊擴充套件。

②最近一次的東京奧運會的獎牌榜前5名的國家和獎牌數分別是？

第二個問題，只有訊飛星火3.5給出了正確的答案，文心一言則僅給到了前三的國家和獎牌數量，沒有完整地回答問題，而ChatGPT的答案則出現了錯誤（中國共89枚獎牌）。

③全球第一款16GB記憶體的智慧手機是什麼型號？

第三個問題，面對機圈的問題，只有Chat-GPT4.0給到了正確答案，全球第一款16GB記憶體的智慧手機，是2020年年初發布的三星Galaxy S20 Ultra。

（2）未知問題測試

①世界第一高峰與世界第二高峰相差多少米？

對於世界之最這類問題，訊飛星火V3.5給出的是巖面高度差，回答正確，文心一言和Chat-GPT給到的則是雪面高度差，精度一致，沒有任何問題。

2、邏輯推理能力

（1）魯迅為什麼暴打周樹人？

對於“魯迅為什麼暴打周樹人”這種問題，訊飛星火、文心一言和ChatGPT4都能完美避坑，給出了魯迅和周樹人是同一個人的答案。

（2）昨天的當天是明天的什麼？

第二個問題，昨天的當天是明天的什麼？訊飛星火V3.5和Chat-GPT4.0透過邏輯判斷均給出了正確答案，“前天”，而文心一言則給出“昨天的當天是明天的昨天”的答案，回答錯誤。

（3）龍龍的媽媽有4個孩子，其中3個孩子分別叫貝貝，天天和樂樂，請問她的第4個孩子叫什麼？

第三個問題，三個大模型均成功避坑，訊飛和GPT4分析的最簡潔最到位，文心一言則透過一頓邏輯判斷和理解輸出了正確的答案，過程稍有些複雜，不夠簡潔。

（4）臉盆裡面漂浮著一塊冰，請問冰融化之後，臉盆的水面是上升還是下降？

接著是一個物理常識問題，訊飛回答錯誤，文心一言V4.0和GPT4.0均回答正確，冰融化之後，水面既不會上升也不會下降，並且給出了詳細的邏輯分析。

看來，訊飛星火V3.5在初中物理知識方面，相較於Chat-GPT4.0還有點欠缺。

3、數學解題能力

（1）雞兔同籠，頭共67，足共184，問雞兔各幾隻？請一步一步地作答

面對雞兔同籠問題，訊飛和GPT4.0均以二元一次方程計算後給出了正確答案，訊飛星火給到了完整的解題過程，甚至連計算過程都精確的呈現出來，而文心一言和Chat-GPT4.0的回答過程則較為簡略，以推理的過程為主。

（2）如果一個直角三角形的兩條邊長分別是6和8，另一個與它相似的直角三角形邊長分別是3、4及x，那麼x的值是多少？

接著是第二個數學問題，面對這種沒有給到對應數值的兩邊長度，我們一般會分析到兩種不同的可能性，因此這道題的標準答案會有2個，很顯然訊飛星火3.5全都顧及到了，給出了兩個正確的答案。

而文心一言V3.5和Chat GPT4.0只給出了一種正確的可能性。

所以，透過以上測試的數學問題來看，訊飛星火V3.5的解題能力已經在國際中處於領先水平，甚至在部分能力上已經超越了Chat GPT4.0。

4、程式碼能力

現在許多程式設計師也會使用大模型來解決問題，因此在程式碼的編寫和解釋能力上，我們也測試了一番。

（1）程式碼編寫

使用PyQt5搭建-個視窗，點選按鈕之後，有50%的機率把按鈕移動到視窗的隨機位置，還有50%的機率把按鈕的標題改成隨機數。不要有多餘的解釋，直接給出可以執行的程式碼。

在程式碼編寫能力上，三款大模型均能夠精準理解需求，寫出bug的程式，放到直譯器裡完美執行。

（2）解釋程式碼

我們給到一段程式碼讓三個大模型進行解釋，三者均會根據每行的程式碼進行解釋，文心一言給到的解釋要更偏向小白，邏輯非常清晰，新手也能一目瞭然。

訊飛給到的解釋與GPT4.0差不太多，所以在程式碼編輯和解釋能力上，訊飛星火3.5、Chat GPT 4.0大體相當。

5、知識問答：文章提問

為了測試三種大型語言模型對語文理解能力的差異，我們選取了一段高中閱讀理解材料，讓這些模型閱讀並回答相關問題。

透過這種方式，我們可以比較它們在文字理解方面的表現。

我們給到這段文字，讓三款大模型進行閱讀，接著進行提問。

問題一：請問永嘉山水適合隱居的原因是什麼？

第一個問題，訊飛星火3.5給到的原因是最全面的，也是最準確的，從根本上回答了這個問題，文心一言3.5給到的答案也比較準確，不過並沒有訊飛全面。

Chat GPT4.0給到的回答比較深入，也就是說它能夠進一步理解作者所表達的內在思想與含義，也就是說Chat GPT4.0對文字的理解要更加深刻。

問題二：請簡要總結這篇文章的主旨，要求在350字以內。

對於語言的理解，訊飛星火 V3.5 和 GPT-4 在處理自然語言任務時都展現出了合格的理解能力，然而在綜合比較中，GPT-4 在理解和表達方面顯得更為精準與細膩。

6、文生圖能力

在多模態能力上，我們測試對比了大模型文生圖的能力，根據描述的文字畫出圖片。

可以看到，三款大模型均能夠理解文字所表達的意思，並畫出準確的裝修效果圖。

不過訊飛星火V3.5和Chat GPT4.0繪製的圖片細膩程度和精美程度上均優於文心一言3.5，二者在文生圖的能力上，不相仲伯。

接著我們提高了難度，讓三款大模型在上一幅圖的基礎上進行二次創作，雖然均不能還原上一幅圖中的全部樣貌，但訊飛星火V3.5和Chat GPT4.0均能以接近上一幅圖的場景進行二次創作，並精確理解了“牆面上的畫”指的是什麼內容。

文心一言V4.0應該說是理解了題目中的一般要求，把“春江水暖鴨先知”的含義放在了整個畫面當中，並沒有理解“牆面上的畫中”是什麼東西，導致與要求的本意產生了較大的偏差，也讓最終的呈現效果與預期有一定的出入。

反觀訊飛星火V3.5和Chat GPT4.0，在語義理解能力方面表現出色，兩者的能力接近，甚至達到了相似的水平。

四、總結：訊飛星火V3.5與Chat GPT4 不相仲伯

經過我們對三款大模型的深度體驗與對比測試，我們做出以下總結：

在國際大模型比拼中，訊飛星火V3.5不僅在常規問答、邏輯推理和數學解題方面與Chat GPT 4.0並駕齊驅，甚至在某些方面超越了後者，尤其在解答語言相關的問題時，訊飛星火V3.5展現出了更深厚的理解能力和更廣泛的知識面。

在數學能力上，訊飛星火V3.5更注重解題的過程，告訴你解題的所有步驟，就算是沒有基礎知識也能一看便會，而文心一言和GPT則更偏向於推理的過程，資料偏理科的那種。

就數學能力而言，國內的訊飛星火和文心一言這兩款大模型的解題能力已經在國際中處於領先水平，甚至在部分能力上已經超越了Chat GPT 4.0。

多模態能力上，程式碼編寫與解釋、作圖等測試，訊飛和GPT 4.0均以精確的理解力和較為複雜的作圖能力完成了要求，不僅能夠準確理解所提供的資訊，還能夠在作圖任務中細緻地還原或創造出接近描述的細節，展現出了它們的強大的理解能力和創造能力。

而文心一言雖然也能完成基本的任務，但在細節處理和深度理解上，與二者略有差距，很顯然它在多模態互動方面的潛力還未完全發揮出來。

綜合而言，訊飛星火認知大模型V3.5在各項測試中已相當出色，展現出其在多個領域的領先優勢，儘管與ChatGPT 4.0在某些方面還有一定差距，但可以期待，隨著科大訊飛在技術上的持續進步，未來的訊飛星火認知大模型將逐漸走到國際領先水平，全面對標GPT-4。

在當前國內人工智慧領域競爭愈發激烈的背景下，我們有足夠的信心和理由相信，訊飛星火將憑藉其先進的語音技術和日益累積的技術演算法，在不久的將來不僅能夠追趕上 GPT-4 的能力水平，還將進一步推動中國在全球人工智慧領域的發展和領導地位，走向新的階梯。