2024年1月30日,釋出了首個基於全國產化算力平臺訓練的全民開放大模型——訊飛星火V3.5,相比上一代模型在語言理解、文字生成、知識問答、邏輯推理、數學能力、程式碼能力和能力等七個方面進行了全面升級。特別是在語言理解、數學能力方面已經超過 GPT-4 Turbo,進一步夯實了中國“最聰明”的大模型的地位。
在釋出會現場,科大訊飛工作人員也展示了與訊飛星火V3.5的人機互動體驗,它不僅能夠清晰理解所說的含義,同時還能夠實現多輪對話,完全感覺就是在“嘮嗑”一般,並且還讓訊飛星火V3.5有了一定的情緒感知,完全體會不到機器人的冰冷。
當主持人表達想要去哈爾濱旅行的想法後,訊飛星火V3.5快速為主持人定製了旅遊攻略,還催促他趕快買票,因為此時正是春運時期,所有票都非常緊俏,這樣的邏輯能力也是相當給力的。
所以在全程看完訊飛星火V3.5的釋出會後,筆者就迫不及待的想要體驗一下它的實力,並且將直觀的與當下同樣火爆的ChatGPT 最 新的 GPT-4、文心一言4.0幾個大模型進行比較,重點從語言理解、數學能力、多模態、辦公支援等多個維度來具體分析訊飛星火V3.5的真實表現。(注:目前除了訊飛星火V3.5外,其它兩個對比大模型都是需要付費的)
語言理解
題目:大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅櫃子裡九舅借十舅發給十一舅工資的1000元。
問:1、究竟誰是小偷?2、錢本來是誰的?
其實這道題主要考驗的是一個關係邏輯推理問題,我們看看幾個大模型都是如何回答的。
訊飛星火V3.5
GPT-4
文心一言
從對比中看出,目前各個大模型其實都是有一定邏輯推理能力的,但是在繞來繞去的文字裡,只有訊飛星火V3.5給出了正確的結果,四舅偷了錢,錢是九舅的。而且訊飛星火V3.5的分析也是非常簡潔明瞭,讓使用者很快就能明白其中關鍵緣由。
下面再出一道關於空間邏輯的題目。
題目:我是一名在校學生,圖書館在學校的中心位,實驗樓在圖書館的南邊,學生活動中心在學校的北邊,教學樓和體育館分別在學生活動中心的東邊和西邊,食堂在圖書館的東邊,現在我在教學樓上完課需要去實驗樓做實驗,應該怎麼走?
根據提示,筆者簡單的畫了一張草圖,方便大家對照各個大模型的路線來判斷對錯。
訊飛星火V3.5
GPT-4
文心一言
對比之下,三個大模型的回答均是正確的,但是作為使用者,我更希望得到精簡的答案,能夠快速告訴我具體路線。所以從回答的方式來說,筆者更喜歡訊飛星火V3.5和GPT-4,而文心一言有點囉嗦了。
數學能力
題目:河上有拋物線型拱橋,當水面距拱頂5米時,水面寬度為8米,一小船寬4米,高2米,載貨後船露出水面的部分高0.75米,問水面上漲到與拋物線拱頂距多少時,小船開始不能通行?
訊飛星火V3.5
GPT-4
文心一言
單純的從答案上對比,訊飛星火V3.5和GPT-4(四分之五就不能換算一下麼?)的答案均正確,而文心一言的答案是錯誤的,雖然它的講解是最詳細的,但是數學畢竟需要的是嚴謹。不過在給學生講題的過程中將你的邏輯思維傳遞給學生時,要求是連貫性,能夠引導學生學會這道題。所以從這個方面來說,訊飛星火V3.5相比GPT-4顯然更勝一籌, 能夠一步步透過引導思維來分析題,解答題,最終呈現正確的結果。
辦公支援
現如今越來越多的行業開始對接大模型,其目的就是提供更加高效的生產力。所以在辦公支援的測試中,我們加入了PPT製作、程式碼、文案編輯等幾個測試。
首先對於很多寫程式碼的程式設計師,很多都開始使用AI大模型來輔助完善程式碼工作,這也是大模型應用落地非常廣的使用場景。筆者分別向訊飛星火V3.5、GPT-4、文心一言提出展示一個網站的CSS和JavaScript中的粘性標題的程式碼片段。結果如下:
訊飛星火V3.5
GPT-4
文心一言
從反饋的程式碼來看,三個大模型對程式碼的編寫都是很在行的,不過訊飛星火V3.5給出的程式碼格式是最標準的,輸出的內容更加豐富,考慮的情況最多,並且格式簡潔清爽。而文心一言除了內容豐富外,還增加了重點程式碼的備註說明,這個能夠給初學者提供不小的幫助,是非常人性化的。
另外,在作文水平方面,也是展示大模型對語言組織、文采方面的能力。筆者分別讓三個大模型寫一篇關於春節的作文,看看訊飛星火V3.5、GPT-4、文心一言誰更出色。
訊飛星火V3.5
GPT-4
文心一言
從匯出的結果看,GPT-4似乎對中國的作文還有比較深的誤解,整個格式均不符合我們作文的方式。訊飛星火V3.5和文心一言比起來,訊飛星火V3.5的作文內容更加的豐富,文采更加優秀,應該更能打動閱卷老師。
多模態能力
透過文字需求生成圖片是很多做視覺創意、設計師的工作,也是大模型多模態的基礎能力。首先筆者讓訊飛星火V3.5、GPT-4和文心一言就“獨在異鄉為異客,每逢佳節倍思親。遙知兄弟登高處,遍插茱萸少一人”分別做了一幅畫。
訊飛星火V3.5很快就生成了一副作品,登高望遠,整個畫面層次感很強,基本符合了詩中的含義。
而GPT-4顯示將整首詩的含義進行了解析,畫面風格也更加符合詩中有些淒涼的情景,包括手中的茱萸,細節感表現要比訊飛星火V3.5強不少,畫面質感也十分不錯。
文心一言直接生成了四幅作品,可選餘地倒是挺多。不過對整首詩的含義理解就沒有那麼深刻,僅有一張圖將登高望遠那種淒涼的感覺展現了出來,同樣也是沒有GPT-4那麼細緻。
接下來又要求它們分別展現一艘豪華遊輪停泊在城市港口,時間為黃昏,遠處有城市,看看三個大模型的表現。
三個大模型所展示的畫均符合題目要求,不過仔細看文心一言和GPT-4生成的圖片立體感更強烈一些,更有視覺衝擊感。文心一言同樣還是一次性生成了四張圖片,給使用者更多的選擇空間。而表現最 好的是GPT-4,圖片內容非常豐富,展現了太陽即將落下的夕陽,港口密密麻麻的船隻,包括城市高樓外觀多樣性的渲染也都非常清晰,可以說是毫無懸念的勝出。
接下來再試試圖生文的能力。
訊飛星火V3.5的圖片識別能力還是非常強的,這個三室兩廳的平面圖分析的十分到位,並每個房間的位置和東西擺放介紹的很清楚,沒有明顯的錯誤出現。
而GPT-4對戶型的理解完全的錯誤了,比如它可能將書房看成了入戶走廊,餐廳的旁邊其實是衛生間,它誤認為是廚房。另外GPT-4可能想盡量多體現一些細節,像餐廳裡的椅子是六把,它識別成了四把等等。
所以總體上來說,在多模態能力方面,訊飛星火V3.5和GPT-4基本是不分伯仲,兩者實際使用體驗都非常不錯。
再看看文心一言在圖生文方面就是比較欠缺的了,整個房間方位並沒有按照圖片所示,更像是識別了一張戶型圖,然後將一些戶型圖基本資訊進行了填充,與圖片完全不匹配,
全語音互動
最後筆者也跟釋出會一樣,與訊飛星火V3.5嘮了嘮嗑,體驗一下本次大模型其中的亮點全語音互動。和我們理解的一條一條的互動方式不同,訊飛星火V3.5更像是在和閨蜜聊天。
筆者分別對訊飛星火V3.5和GPT-4嘮了一樣的嗑,整體語音識別速度明顯感覺出訊飛星火V3.5更加的快捷。同時在語音識別準確率和熱點認知上,訊飛星火V3.5也更加準確,明白了使用者想去哈爾濱玩的想法,並給出具體建議。
而GPT-4則將“爾濱”的暱稱給識別成“耳冰”,解釋成耳朵按摩和耳部療法,雖然也是一種放鬆方式 ,但完全不是使用者想要的答案。
透過對比綜合來說,全新發布的訊飛星火V3.5的綜合實力又提升了一大步,並且在很多方面已經趕上,甚至超越了GPT-4的表現,尤其是在邏輯推理、數學能力、語音互動這幾個方面,更加符合中國人的使用習慣。
不過在文生圖這個環節中,訊飛星火V3.5還是有很大提升空間的,比如遍插茱萸少一人這句詩就沒能很好的展現在圖片中,而GPT-4還是能比較抓住裡面的細節,展現給使用者。另外文心一言在文生圖方面同樣表現要優於訊飛星火V3.5,畫面真實感更強,更符合使用者的需求。
AI大模型可以說是為了人工智慧最堅實的基礎,只有把地基搭好,才能實現未來在人工智慧上面的彎道超車。我們也相信在2024年,訊飛星火有實力趕上GPT-4的發展程序,向世界展示真正的中國實力。