新智元報道
編輯:編輯部
【新智元導讀】深夜,忽然放出復仇殺器。Bard、Duet AI,如今都成了歷史的塵埃。Gemini既是模型,也是產品,谷歌推向全世界的AI,在今夜正式統一。
爆料成真了,谷歌的Gemini大殺器果然在昨天晚上炸了出來。
就在剛剛,谷歌正式官宣,Bard更名為Gemini。
從此,谷歌進入Gemini時代的新篇章。
與此同時,迄今為止最強的Gemini Ultra所加持的聊天機器人Gemini Advanced也在今天正式開放,所有人皆可訪問。
從此,所有人都可以在谷歌辦公全家桶中用到最強大模型Gemini了!
當然,這個最強機器人並不是免費的,需要月付20美金,所幸前2個月可以免費使用。
要知道,ChatGPT每個月的收費就是20美元,谷歌此舉是直接和OpenAI打擂臺了。
此次谷歌不僅推出了大模型面向C端的APP,還將內部的多個產品接入大模型中。這樣,谷歌的大模型就離公眾又近了一步。
採取保守策略的谷歌,在去年一年被和OpenAI的重重險招打得找不著北,但最近的谷歌已經越來越大膽,誓要在產品和生態上攻城略地,扳回一局。
Gemini,進入谷歌全家桶
以前,或許你會為谷歌千千萬萬產品的名字感到困惑。
但未來談及谷歌的AI時,它們會匯合成同一個名字——Gemini。
Gemini既是模型名,也是產品名。既是聊天助手,又是聊天機器人,還是搜尋引擎。
Bard聊天機器人、安卓Gemini應用程式、Google Workspace中的所有Duet AI功能,通通都整合到了Gemini品牌中。
在谷歌郵箱中,你能讓它幫忙總結關於學校最近的郵件。
在Gemini APP中,它能幫你根據照片寫描述、發帖。
而迄今最強大模型Gemini Ultra 1.0,更是強到髮指。
每月20刀!Gemini開始收費了
屬於Bard的時代,已經不再了。
得到「地表最強」的模型Gemini Ultra加持後,Gemini Advanced註定要成為最受歡迎的聊天機器人。
谷歌部落格介紹,藉助Ultra 1.0模型,Gemini Advanced在完成複雜任務方面,效能暴漲。
比如,對於程式設計、邏輯推理、遵循複雜指令,以及參與創意專案的協作,勝任力近乎完美。
除此之外,Gemini Advanced不僅可以開啟更長、更詳細的對話,還能更好地理解此前提出問題的上下文。
Gemini Advanced能做的,或許並不比ChatGPT差。
它可以成為你的個人導師,為你量身訂製分佈教學、樣本測驗,或者討論話題。
面對更復雜的編碼難題時,它能助你一臂之力,提供反饋意見,並幫你評估不同的程式設計方法。
它甚至,可以為那些「數字內容創作者」從構思到實現,透過生成新內容、分析最新趨勢,以及尋找增長受眾的新方法
當然了,正如此前爆料所稱,Gemini Advanced將開啟收費模式:
價格為每月19.99美元,並提供兩個月的免費試用。
這是谷歌全新的Google One AI高階訂閱計劃的一部分。
計劃主要是為使用者,提供Google AI最好、最頂尖的技術,同時包括Google One Premium儲存空間優勢,比如2TB的儲存空間。
此外,AI Premium使用者不久很快就能夠在Gmail、Docs、Slides、Sheets等產品中使用Gemini(以前稱為Duet AI)。
谷歌表示,Gemini Advanced初代版本已展示出強大的AI推理能力,未來還將持續最佳化。
目前,Gemini Advanced現已在150多個國家和地區提供英語服務,之後會逐步擴充套件到更多語言。
需要明確的是,Bard的全新升級可以理解為,是一次純粹的「品牌」重塑,背後的模型本身並未改變。
早在去年12月初,劈柴就宣佈了,Bard背後的大模型從PaLM 2迭代為Gemini。
而這次,谷歌給聊天機器人的更名,更是將微軟、OpenAI視為強大的競爭對手。
AI助手Gemini裝進手機
此外,在手機端側用上大模型、聊天機器人Gemini,也是谷歌佈局中的一步大棋。
同在今天,谷歌為Gemini和Gemini Advanced聊天機器人,分別引入了全新的安卓應用,以及iOS上的谷歌應用。
以後,拿起手機只需呼喚一聲「Gemini」。
不論你身處何處,都可以透過透過輸入、語音、甚至是圖片尋求建議。
比如,出行的半路爆胎,你可以拍一張照片,問問Gemini如何處理棘手的難題。
又或者,你想舉辦一個晚餐party,卻不知如何設計,找Gemini製作個性化圖片,定製流程,準沒錯!
在谷歌看來:
這標誌著我們正構建一個真正的AI助手的重要起點 —— 一個既能進行對話、支援多種互動方式又實用的助手。Gemini安卓版上線
Gemini在安卓手機上也能下載了。
除了這種方式,你還可以選擇使用Gemini,替代原來的Google Assistant,成為手機的預設語音助手。
然後你可以透過長按電源鍵、在手機上滑動螢幕到角落,或者說「hi Google」,啟用Gemini。
這將為我們開啟一個全新的手機體驗,可以輕鬆訪問Gemini,並獲得與當前螢幕內容相關的幫助。
舉個栗子,隨手拍一張小清新風格的照片,然後讓Gemini生成描述。
立刻,它生成了多個可用的描述供你選擇,「多肉植物和點心」、「桌面靜物」、「沙漠氣息」.....
又或者拍一張狗狗照片,然後可以讓Gemini為Baxter建立一個可愛的社交標題。
此外,透過Gemini應用,你還可以使用許多Google Assistant的語音功能,比如設定計時器、撥打電話和控制智慧家庭裝置等等,
iOS版也來了
在iOS裝置上,谷歌將在未來幾周透過Google App提供訪問。
只需點選Gemini切換按鈕,即可開啟對話。
它可以激發你的創意,建立定製圖片,撰寫社交媒體帖子,甚至在Google App中策劃一場約會之夜。
許多網友已經迫不及待,剁手20刀體驗最新的Gemini Advanced。
「還是有些失望的」。
84頁超長技術報告更新
隨著Gemini Ultra的正式上線,谷歌也同步更新了Gemini 1.0的技術報告。
論文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
在完成大規模預訓練後,模型還需要通過後訓練(post-training),即在已有的預訓練模型基礎上進一步訓練,來拓展自己的能力(比如在程式設計和多語言處理領域)並增加更多的功能。
指令跟隨
對於LLM來說,精準地執行使用者的指令是一項基礎能力。為此,谷歌採用了一種非常細緻的方法來評估模型對每條指令的遵循程度。
具體評價標準有兩個:
1. 每條指令的準確率(評估集中遵循的子指令百分比)
2. 完整響應的準確率(評估集中所有子指令都被遵循的指令百分比)
結果如表14所示,Gemini Advanced(Ultra)在每條指令的準確率上達到了接近90%的平均水平,相比Gemini和經過後訓練的PaLM 2模型有顯著的提升。
不過,Gemini Advanced(Ultra)在完全滿足所有指令方面還有進一步的提升空間——準確率只有約54%。
多模態視覺
透過多模態後訓練,Gemini原生的多模態能力也得到了進一步加強,從而顯著提升了模型在各種實用場景中的應用能力。
其中,得益於監督微調(SFT)帶來的指令跟隨能力的提升,Gemini Vision模型的輸出風格也更加貼近標準答案,並且成功地在多個測試集上(如InfographicVQA、AI2D、VQAv2)實現了效能的提升。
程式碼
雖然基礎模型在程式設計基準測試中表現得已經非常出色,但後訓練資料還是顯著提升了程式碼的質量和正確性。
而這也凸顯了高質量示例資料和反饋資料對程式設計應用的重要性。其中,Gemini採用的是人工和自動生成的混合資料。
SxS得分顯示,Gemini(Pro版本)在使用了更新的後訓練策略後,效能顯著優於基於PaLM 2的舊版Bard。而Gemini Advanced(Ultra版本)在此基礎上進一步提升了效能。
老牌科技巨頭的最後一搏
谷歌如此全力以赴並不奇怪,OpenAI、Anthropic、Perplexity等強大的對手,都在虎視眈眈,蠶食著這家老牌科技公司的市場。
去年Gemini釋出的測試中,Gemini驅動的Bard效能很強,幾乎和GPT-4相當,但速度明顯較慢。
現在,谷歌急需證明自己能夠跟上行業的步伐。兩個難點在於:它既要打造一款引人注目的消費產品,又要試圖說服開發者在Gemini上構建應用,而非OpenAI的模型。
在谷歌的歷史上,集全公司之力押注同一件事的情況,只有寥寥數次。比如,曾經的Google Pllus。
但這一次,谷歌似乎在使出洪荒之力,致力於成為一家AI公司。
萬物皆可Gemini,會是谷歌撕開困境,給OpenAI猛力一擊的開始嗎?
參考資料:
https://blog.google/products/gemini/bard-gemini-advanced-app/