科大訊飛大模型新升級：20秒製作PPT，擬人語音能力超越ChatGPT｜最前線

作者｜武靜靜

編輯｜鄧詠儀

1月30日，釋出新升級的訊飛認知大模型星火V3.5，併發布了自研的語音大模型，以及星火開源大模型——星火開源-13B。

過去一年，科大訊飛的重點都在大模型方向上，臨近歲末放出大量更新，某種程度也展示了訊飛的投入決心。就在1月29日，公司釋出了2023年業績預告：預計營收為200億元，比2022年增長了7%。不過，由於大模型方面的巨大投入，公司的淨利潤有所下降，2023年公司預計（扣除非經常性損益後）淨利潤在0.8億元-1.2億元區間，比2022年下滑了70%以上。

科大訊飛稱，訊飛星火V3.5基於全國產化算力底座飛星一號平臺打造，是首個基於全國產化算力平臺訓練的全民開放大模型。升級後的訊飛星火V3.5在邏輯推理、語言理解、文字生成、數學答題、程式碼、等七大能力上均有提升。

升級之後，訊飛星火的文字生成能力和數理運算能力都有提升，可以輕鬆回答初三的數學物理題。

現場演示中，對“前進20米、右轉60 、反覆下去能否回到原點，如果能回到，需要多少米”這一問題，星火V3.5都可以輕鬆應對。

整體引數上，星火V3.5在語言理解、數學能力已超過GPT-4 Turbo，程式碼能力和多模態理解能力，都已達到GPT-4V能力的90%以上。

星火V3.5與GPT能力對比

依靠星火V3.5的新升級，科大訊飛也釋出了新的AIGC工具“訊飛智文”。

在現場，科大訊飛同樣進行了實時演示。依據給定的文件資訊，訊飛智文可以用20秒時間，快速製作出一套幾十頁PPT的新升級技能。PPT生成之後，還可以配備專業的虛擬人對PPT進行講解。

PPT生成能力依靠的是星火V3.5的要素抽取、概念理解、知識推理、問題生成、圖文生成能力。星火V3.5不僅可以邏輯化處理文件資訊，還可以讓大模型提供更多文件之外的增量資訊，拓展PPT內容的深度。

科大訊飛也釋出了新的多模態模型進展。

新發布的“星火語音大模型”，基於大語言模型框架，結合訊飛語種、音色、內容等多維度語音屬性解耦表徵預訓練而成。它可以實現多語種並達到超擬人的語音合成效果。其首批40個語種平均MOS分（評估音訊或影片質量的一種標準，5分為最高）提升了0.25，擬人測試中MOS達到4.5分，擬人度達到83%，擬人語音合成能力超越ChatGPT。

星火語音大模型

開源方向上，此次科大訊飛釋出了星火開源-13B（iFlytekSpark-13B）模型。該模型為130億引數，經過3萬億以上tokens海量高質量資料集上進行預訓練，具備聊天、問答、文字提取、資料分析和程式碼生成等功能。

星火開源大模型

同時，科大訊飛也基於星火V3.5的大模型能力，全線升級了翻譯機、錄音筆等硬體產品以及to B業務。

新推出的星火智慧黑板，是基於星火大模型打造的一款AI硬體產品。這款智慧黑板具備多模態理解與推薦、全自然互動、虛擬人輔助教學、智慧化錄課等多種功能，能夠讓知識的講解更直觀，讓老師授課更便捷，也把名家如愛因斯坦等以虛擬人的形式搬進了課堂，輔助學生更高效的學習。

星火智慧黑板

瞄準大模型在B端落地場景，科大訊飛不僅升級星火通用大模型，還優化了大模型相關的一系列套件服務。

底層，星火通用大模型有13B、65B、175B等多種尺寸，支援異構算力排程，行業大模型方面上，星火的全鏈條工具鏈可以行業大模型訓練效率提升90%，支撐企業主流場景的應用最佳化。

目前，星火大模型已經在能源、政務等場景落地。

星火大模型to B應用框架

關於未來計劃，科大訊飛稱，接下來會繼續發力提升模型能力，將會在2024年上半年，全面對標GPT4，釋出訊飛星火4.0也將釋出。