12月5日訊息,美國當地時間週三,旗下人工智慧研究機構DeepMind推出了一款新模型,能夠創造出“無窮無盡”且各具特色的3D世界。
這款模型名為Genie 2,是DeepMind在今年早些時候推出的Genie模型的升級版。僅憑一張圖片和一段文字描述,例如“一個可愛的機器人置身於茂密的森林中”,Genie 2就能構建出一個互動式的實時場景。在這方面,它與李飛飛創立的World Labs以及以色列新興企業Decart所開發的模型有著異曲同工之妙。
DeepMind宣稱,Genie 2能夠生成“豐富多樣的3D世界”,使用者可透過滑鼠或鍵盤在這些世界中自由跳躍、游泳等。經過影片訓練,該模型能夠精準模擬物體的互動、動畫效果、照明、物理現象、反射效果以及“NPC”(非玩家角色)的行為。
Genie 2所創造的許多模擬場景,其視覺效果堪比AAA級影片遊戲,這很可能是因為該模型的訓練資料中融入了眾多熱門遊戲的體驗。然而,與眾多人工智慧實驗室一樣,DeepMind出於競爭壓力或其他考量,並未過多透露其資料來源及訓練方法的細節。
這項技術對智慧財產權的影響引發關注。作為谷歌的子公司,DeepMind無疑能不受限制地訪問YouTube。而谷歌此前曾暗示,其協議允許使用YouTube影片進行模型訓練。但問題是,Genie 2在製作過程中,是否無意間製作了它所“觀看”的影片遊戲未經授權的複製品,恐怕只有法院才能給出最終裁決。
DeepMind透露,Genie 2具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力,這些生成的世界可持續時間長達一分鐘,儘管多數情況下維持在10到20秒之間。
DeepMind團隊在部落格文章中表示:“Genie 2能夠智慧地根據鍵盤操作作出反應,準確識別角色並相應移動它。舉例來說,我們的模型能夠判斷方向鍵應控制機器人的移動,而非樹木或雲朵。”
眾多類似Genie 2的模型雖能模擬遊戲及3D環境,卻常面臨人造感、連貫性缺失及幻覺相關的挑戰。例如,Decart的《我的世界》模擬器Oasis便存在解析度低、迅速“遺忘”關卡布局的問題。
相比之下,Genie 2能夠記憶模擬場景中未直接呈現的部分,並在它們重現時精準渲染,這一能力同樣體現在李飛飛World Labs的模型中。
然而,目前利用Genie 2製作的遊戲尚缺乏足夠的趣味性,因為它們每分鐘都會清除玩家的進度。因此,DeepMind將Genie 2定位為一種研究與創新工具,專門用於“互動體驗”的原型製作及AI智慧體的評估。
DeepMind在部落格中寫道:“得益於Genie 2卓越的泛化能力,概念藝術和圖紙得以輕鬆轉化為完全互動的環境。藉助Genie 2,我們的研究人員能夠快速構建出豐富多樣的環境供AI智慧體使用,進而生成訓練期間未遭遇過的評估任務,以檢驗智慧體的應對能力。”
對於創意工作者,尤其是電子遊戲行業的從業者而言,這種技術可能讓他們喜憂參半。近期,《連線》雜誌的一項調查顯示,諸如動視暴雪等大公司正藉助人工智慧技術來縮減成本、提升效率,並應對員工流失的問題。事實上,動視暴雪已裁汰了數十名員工。
儘管如此,谷歌在世界模型研究領域的投入正持續加大,這一領域有望成為人工智慧領域的下一個重大突破。去年10月,DeepMind成功招募了蒂姆·布魯克斯(Tim Brooks),他此前負責OpenAI影片生成器Sora的開發工作,現負責影片生成技術和世界模擬器的研發。
兩年前,DeepMind還從Meta挖來了蒂姆·羅克塔謝爾(Tim Rocktäschel),他因對《NetHack》等電子遊戲的“開放性”實驗而聞名。(小小)