出品|科技《態度》欄目
作者|丁廣勝
人們驚呼,好萊塢即將發生核爆!
北京時間今日凌晨,OpenAI釋出文字到影片生成模型Sora,它是一個人工智慧模型,可以從文字指令中建立逼真和富有想象力的影片場景。
“我們正在教人工智慧理解和模擬運動中的物理世界,目標是訓練模型,幫助人們解決需要現實世界互動的問題。”OpenAI表示。
據介紹,給定一段簡短或詳細的描述或一張靜態圖片,Sora 就能生成類似電影的1080P場景,其中包含多個角色、不同型別的動作和背景細節。
當然,OpenAI也承認Sora還有不少“弱點”,接下來,我們一睹Sora的效果:
輸入提示:一位時尚的女士走在充滿溫暖發光的霓虹燈和動畫城市標牌的東京街道上。她穿著一件黑色皮夾克、一件紅色長裙和黑色靴子,還帶著一個黑色錢包。她戴著太陽鏡和紅色口紅。她自信而隨意地走路。街道潮溼且有反射性,創造了五顏六色的燈光的鏡面效果。許多行人走來走去。
輸入提示:加州在淘金熱期間的歷史鏡頭。
輸入提示:相機跟在一輛帶有黑色車頂架的白色復古SUV後面,它在陡峭的山坡上加速了被松樹包圍的陡峭的土路,灰塵從輪胎上踢出,陽光照在SUV上,當它沿著土路加速時,陽光照在場景中投射出溫暖的光芒。土路緩緩向遠處彎曲,看不到其他汽車或車輛。路兩邊的樹木都是紅杉,到處都是綠地。從後部很容易看到這輛車沿著彎道行駛,看起來就像在崎嶇的地形上行駛一樣。土路本身被陡峭的山丘和山脈所包圍,上面有晴朗的藍天和細雲。
輸入提示:參觀藝術畫廊,展出許多不同風格的美麗藝術作品。
輸入提示:一個人跑步的場景,35毫米鏡頭拍攝的電影畫面。(該影片的弱點:Sora有時會產生身體上難以置信的運動。)
輸入提示:相機直接面向義大利布拉諾的五顏六色的建築。一個可愛的dalmation透過一樓一棟建築的窗戶看。許多人沿著建築物前的運河街道步行和騎腳踏車。
Sora的技術路徑:
Sora是一個擴散模型,它透過從看起來像靜態噪聲的影片開始生成影片,並透過在許多步驟中消除噪聲來逐漸轉換它。Sora能夠一次性生成整個影片,或擴充套件生成的影片以使其更長。
透過讓模型一次預見多幀畫面,OpenAI 解決了一個具有挑戰性的問題,即確保被攝體即使暫時離開視線也能保持不變。
OpenAI表示,與 GPT 模型類似,Sora 也使用了 transformer 架構,從而實現了卓越的擴充套件效能。
OpenAI 將影片和影象表示為稱為 patch 的較小資料單元的集合,每個 patch 類似於 GPT 中的 token。透過統一資料表示方式,OpenAI 能夠在比以往更廣泛的視覺資料上訓練擴散 transformer,包括不同的持續時間、解析度和寬高比。
Sora 建立在過去 DALL・E 和 GPT 模型的研究基礎之上。它採用了 DALL・E 3 中的重述技術,即為視覺訓練資料生成高度描述性的字幕。因此,該模型能夠在生成的影片中更忠實地遵循使用者的文字提示。除了能夠僅根據文字說明生成影片外,該模型還能根據現有的靜態影象生成影片,並準確、細緻地對影象內容進行動畫處理。該模型還能提取現有影片,並對其進行擴充套件或填充缺失的幀。
OpenAI認為,Sora是能夠理解和模擬現實世界的模型的基礎,相信這種能力將是實現AGI的一個重要里程碑。