去年的時候,董事長劉慶峰曾表示,訊飛星火的程式碼生成和補齊維度上已經超過了 ChatGPT,並在 2024 年上半年實現對標 GPT-4。如今訊飛星火已經進化至 V3.5 版本,它現在的能力離 GPT-4 還有多遠?
作者 | 王啟隆
責編 | 唐小引
出品 | CSDN(ID:CSDNnews)
北京時間 1 月 30 日,科大訊飛於合肥濱湖會展中心舉行星火認知大模型 V3.5 升級釋出會,重點展示了訊飛星火認知大模型的底層能力和應用場景,並重磅釋出了訊飛語音大模型和首個 13B(130 億引數)的開源大模型。
星火認知大模型是科大訊飛在通用人工智慧領域核心技術與創新能力的重要體現,本次升級使其能力全面提升,在測評體系涵蓋的 481 個維度上,透過隨機動態資料的嚴格測試,星火 V3.5 七大能力全面提升,語言理解、數學能力超越了 GPT-4 Turbo,多模態理解能力達到了 GPT-4V 的 90%+ 水平。
遙想去年的釋出會上,劉慶峰坦言,訊飛星火大模型的這一功能和 ChatGPT 相比還有很大差距,有待升級。如今,V3.5 的星火認知大模型程式碼水平已經達到了 GPT-4 Turbo 的 96%。
值得一提的是,這場釋出會並沒有透過單純的“卷資料”或“卷排名”來證明實力,而是從日常、辦公、學習及旅遊等方面演示了大量的生活應用場景,令人身臨其境。話不多說,下面一起看看 GAI(通用人工智慧)賦能的生活已經離我們有多近了。
AI Agent 真要來了?
在大會的實 機演示環節,科大訊飛研究院院長劉聰博士 透過對話展現了星火 App 的全新功能與互動體驗。當前星火 V3.5 大模型已經能模擬出自然、流暢且富有情感的聲音( 吐槽:女聲版有點像手遊配音演員 ),而劉聰與星火的對話模擬了日常生活情境,討論了各自近期的工作忙碌程度、年終總結 PPT 的修改困境、春節放假安排以及春節期間的出遊計劃等話題。
在對話中,星火表現出高度的人格化特徵,不僅能夠理解劉聰對於總結髮佈會 PPT 的壓力,還能安慰他,推薦節日放鬆的方式。緊接著,星火依據劉聰提出的哈爾濱旅遊需求,用東北方言介紹了當地冬季特色。當劉聰詢問是否可以乘坐前段時間春運首秀的國產商用飛機 C919 前往哈爾濱時,星火會直接聯網反饋,告知目前暫無直飛航班,並建議查詢其他出行方案。
釋出會還對星火認知大模型的多模態能力和推理能力進行了現場演示。針對較為複雜的幾何軌跡問題,星火大模型能夠識別並轉化成正多邊形軌跡問題,正確分析出行走人在一定路徑下能否回到原點及其行走總距離。
在實際生活應用層面,展示了一個有趣的例子:識別校園地圖。星火 V3.5 在處理空間關係圖時,即使沒有視覺參照,也能理解並解釋複雜的校園建築佈局,進行導航和路徑規劃。
這很好地解決了有人會在大學迷路的問題。
輸入一張室內平面佈局圖後,星火 V3.5 能精準分析出房間佈局型別,並結合物體識別功能,詳細描述了各功能區的具體位置。當被要求生成不同裝修風格的效果圖時,模型不僅能快速切換風格,還能夠在原有基礎上根據使用者的進一步要求更改細節,如將背景牆更換為特定畫面元素。
有相關經驗的讀者會知道,目前主流的 AIGC PPT 應用都還在根據大綱和通用模板生成一些“萬金油”PPT 的階段,可能適用於大學場合,但到了工作場合就會出現“人乾的活比 AI 多”的情況。
訊飛智文相較於傳統的 AI PPT 工具,不僅能高效快捷地一鍵生成符合使用者需求的提綱,還能依據使用者語音輸入的問題及參考資料(比如老闆給你的文件)進行精細化的內容分析與組織,打破了以往模板化的侷限,真正實現了個性化定製。
此外,生成完畢的 PPT 還生成了對應的演講參考文字,甚至能借助虛擬人技術將文字轉換成語音播報,提升了口頭彙報的準備工作效率。
乍一看,訊飛智文就是一個 PPT 製作工具,但實際上裡面已經集成了訊飛星火大模型中的多種 AIGC 能力,透過無縫銜接文字生成、資料分析、文生圖與語音合成等技術,展現出了一種趨於 GAI 初級形態的應用實踐。科幻作品裡的想象已經開始一步步走向現實,在未來,集成了多種能力的訊飛智文也會變成被整合的技術之一。
星火相傳的語音精神
儘管面臨著技術封鎖和算力限制,科大訊飛還是攜手華為成立聯合團隊,成功打造出能夠支撐萬億引數大模型訓練的國產專利平臺“飛行一號”。透過演算法最佳化與海量資料訓練,訊飛語音大模型現在不僅限於單一的語音識別或合成任務,而是能夠應用於萬物互聯時代的多元化場景,如智慧家庭控制、智慧客服、車載語音助手等,透過語音指令理解和執行,使得使用者能夠以語音為主要互動方式,更便捷地操控各類智慧裝置和服務。
訊飛還宣佈釋出了首個 13B 引數規模的開源大模型,致力於推動國內乃至全球範圍內的人工智慧技術發展與生態建設,讓更多開發者和研究者參與到語音大模型的開發和應用中來,共享技術創新成果,加速 AI 技術的普及與應用落地。
釋出會的尾聲,劉慶峰著重分享了一本書《星火相傳》,這本書透過訪談 56 位科大校友、863 專案的老師和其他科大教職員工,真實記錄了科大訊飛的初創故事,尤其是創始人導師王仁華教授從青年時期的求學,到成為中國科學技術大學教師,再到扶持學生科研能力和創業創新,直至支撐整個語音產業發展的全程貢獻。
25 年前,中國語音技術領域幾乎被國際巨頭壟斷(如 IBM ViaVoice),面臨著巨大挑戰,被扼了住咽喉。那時,中國的優秀人才往往選擇出國,而國內科研機構與國際先進水平存在明顯差距。在王仁華教授的支援下,科大訊飛創立,立志將中文語音技術做到世界最優,掌握中文語音產業的主導權。經過五年虧損後,訊飛最終實現盈利,並在語音合成、識別、翻譯等領域取得世界領先的地位,直至今日發展到通用人工智慧和大模型技術。
展望未來,隨著類似訊飛聽見這類尖端語音技術的不斷發展,我們或許就能和《流浪地球》裡的宇航員一樣,一方說著漢語,另一方說著俄語,流暢自如地進行多語言無障礙交流。