出品 | 虎嗅科技組
作者 | 王一鵬
頭圖 | Google 官網
就在2月8日,Gemini又迎來一次重大更新。
首先,2023年年底承諾的Gemini最強版本Ultra,和GeminiAdvanced服務正式對外發布;另外,谷歌的生成式AI品牌迎來收束:Bard消失了,只保留Gemini,此前傳聞的BardAdvanced,最終證實是GeminiAdvanced。
最後,谷歌生態發力。GeminiUltra全方位進入谷歌生態產品,包括安卓端的GoogleAssistant、iOS端的GoogleApp、谷歌雲、谷歌文件、Gmail等等。
這是迄今為止,谷歌給予OpenAI的最強反擊。
GeminiUltra,無縫接入生態
目前無論是GoogleCEO皮查伊還是GoogleAssistant和Bard副總裁兼總經理蕭茜茜,都沒在2月8日的官網釋出中透露更多技術細節,目前能得知的僅限於皮查伊的部分帶有主觀色彩的描述:
1. 最大的模型Ultra1.0是第一個在MMLU(大規模多工語言理解)上優於人類專家的模型,MMLU使用57個科目的組合——包括數學,物理,歷史,法律,醫學和倫理——來測試知識和解決問題的能力。
2. 它可以是個人導師,根據您的學習風格量身定製。或者它可以是一個創意合作伙伴,幫助你規劃內容策略或制定商業計劃。
從去年12月的釋出來看,GeminiUltra的特長是多學科複雜知識的理解和處理上、在MMLU(大規模多工語言理解)測試框架中,GeminiUltra的得分是90.0%,在新的MMMU(專家AGI的大規模多學科多模式理解和推理)基準測試中取得了59.4%的分數。有訊息稱,GeminiUltra1.0動用了五倍於GPT-4的算力進行訓練。
GPT-4與GeminiUltra的效能對比,來自Google技術部落格
但在2023年12月6日釋出時,谷歌表示還在對Ultra版本進行微調、強化學習和有對抗的安全檢查,至於這一部分工作進展如何,釋出中並未提及。不過Alphabet的首席科學家JeffDean表示Gemini1.0技術報告已經更新,重點在第六節和第七節,主要提及Gemini1.0的Post-trainning(訓練後微調)以及模型評估、產品評估等內容。(Gemini1.0技術報告下載連結:gemini_1_report.pdf(storage.googleapis.com))
關於付費計劃,谷歌稱之為GeminiAdvanced,整合在GoogleOneAIPremiumPlan權益裡,標價每月19.99美元,比ChatGPTPlus便宜一美分,贈送兩個月免費試用期和2T儲存空間。購買之後,就可以在Gmail、GoogleDoc裡使用Gemini——當然,現在還不行,ComingSoon。
此外,谷歌也公佈了由GemeniUltra支援的Advanced付費服務,在谷歌生態內的滲透情況,最吸引人的大概是其和GoogleAssistant適配。如果你用的是谷歌的Pixel系列手機,那麼透過語音“heygoogle”即可撥出GemeniUltra,既可以為剛剛拍攝的照片起個標題,也可以圍繞你正在閱讀的文章,提供解讀服務。未來還可以對智慧家庭進行控制。
iOS系統上,在谷歌應用裡,也可以實現到Gemini的一鍵切換,只是在整體體驗上,遵循APP邏輯,不如Pixel、安卓原生支援Gemini的體驗絲滑。
在辦公工具的協同上,Gemini1.0的優勢在於提供基於搜尋引擎結果的可靠內容,且會有意在回答中新增一些結構化資料,比如表格,表格同樣可以便捷匯入Googlesheets。
巨頭反擊的最好方式:攥緊拳頭
如果說昨天的釋出,絕大部分都回應了2023年12月的預告,在大家的意料之中,那麼Bard品牌的消逝,對Gemini品牌的全線扶正,則給了人們驚喜,也體現了谷歌的決斷力。
巨型企業,為了長期保持競爭力,通常會採用“賽馬機制”,在內部多線、並行的對某一領域、某一賽道開展進攻,透過內部競爭來保持活力。但這也讓人員變得臃腫、注意力變的分散,當真正的挑戰者到來時,巨頭往往不能及時調集全部資源,做出反應。投資界將其稱之為“創業者的機會視窗”。
2014年,在收購完成後,Google幾乎擁有世界最強的兩個AI團隊:GoogleBrain、GoogleDeepmind,他們創造了AlphaGo,發明了Transformer,卻在生成式AI時代的早期被擊潰。
Google的力量太分散了,且缺乏危機感。
在很長一段時間裡,人們很難說清楚Google到底有多少個AI技術框架和產品:Transformer
、AlphaGo、Bard、Bert、Duplex、Pathways、Imagen、PaLM1.0/2.0,包括Meena,後來更名為LaMDA。
Google實際上很早就注意到了GPT-3的表現,但受限於複雜的組織架構和分散的資源,並未引起足夠重視。2020年,Google基於自己的Transformer論文孵化出了ChatBot:Meena,但據說一直被內部力量阻撓釋出、商業化,直到一年後改名LaMDA面世。
負責Meena專案的兩名研究員DanielDeFreitas和NoamShazeer,因此拒絕了谷歌的多次挽留,憤而離職,創立了今天爆紅的character.ai。
痛定思痛的谷歌,第一刀就砍向了組織:2023年4月,GoogleDeepMind和GoogleBrain合併,一致對外。
第二刀發生在昨天:全線收束品牌,全部歸攏在Gemini之下。Gemini其實不是Google在生成式AI領域的推倒重建,它是過去谷歌技術積累的總和——從前人們會討論,使用了Pathways方法的PaLM2.0表現如何,Imagen在多模態領域表現如何,但今天,只看Gemini就可以了,它是一個在Transformer基礎上建立,融合了Pathways方法和PaLM成果的全新模型。AlphaGo的深度學習能力、Imagen的多模態能力,都在其中得以彰顯。
此外,OpenAI 的成功,持續給谷歌帶來強大的壓力,也迫使谷歌放棄過於保守的心態。
2月9日有訊息稱,OpenAI的年化收入已超過20億美元,據兩名瞭解該公司財務狀況的人士稱,該公司年運轉率(將前一個月的收入乘以12)在2023年12月達到了20億美元的里程碑。訊息人士補充說,OpenAI相信,由於企業客戶對使用OpenAI的技術推進生成式人工智慧工具在工作場所的運用有濃厚興趣,該公司可以在2025年將這一數字增加一倍以上。
在 OpenAI 的刺激下,從PaLM2.0到Gemini1.0,谷歌用僅僅幾個月的時間,實現在各種測試機準上的成績大幅提升。谷歌的動作也更加敏捷了,2023 全年與生成式 AI 相關的公司級重大發布、調整動作多達 4 起,為歷年之最。
此外,谷歌終於發現,相比 OpenAI,自己在生態層面有著巨大優勢——在與 OpenAI 爭奪使用者、客戶時,戰場不應侷限在 Web 端的 Chatbot,而應該擴充套件至手機、APP、應用平臺、辦公套件、雲服務等多個維度。
到頭來,或許谷歌會發現,原來擊敗OpenAI的訣竅並沒有多神秘,自己要做的僅僅是攥緊拳頭,合力一處。