OpenAI 2 月 16 日釋出了多個人工智慧生產的 60 秒影片,將 OpenAI 文字轉影片工具 Sora 的成果第一次展現在世人面前。它以日語中的 “天空” 一詞命名,寓意著 “無限的創造潛力”。
文字轉影片的 AI 工具並不算完全新鮮的東西。Runway 釋出的 Runway Gen-1 和 Gen-2,Google 的 Imagen Video 和 Phenaki,Meta 的 Make A Video,類似的 AI 文字或影象轉影片工具並不罕見。
此前的各類工具在運用時大多需要逐幀生產影片中的各張圖片,進而將圖片連在一起。這種技術的弊端在於各張圖片間雖然可能共享同一個關鍵詞,卻可能造成大相徑庭的生成結果,故而生成影片的長度受到嚴格限制,一旦過長可能出現影片人物變色或其他不連貫問題。
Sora 相比如上工具的首要優勢在於它在影片長度和連貫性上有了重大突破。按 OpenAI 釋出的技術檔案和部分專家做出的解讀,Sora 採用的 “空間時間補丁” 技術使其可以在讀取文字要求後,將預定影片切割為多個帶有空間和時間資訊的小部分並分別生成。
OpenAI 技術檔案中關於 “空間時間補丁” 技術的示意圖。
這使得 Sora 可以以更加精細的方式確保影片前後一致,並大大豐富了影片中的細節。在 Sora 釋出的模擬影片中,這種連貫性帶來的優勢包括更好地模擬人物與環境之間的簡單互動、向前和向後擴充套件影片、將兩個影片雜糅為一個連貫的影片等前所未見的功能。
除此之外,Sora 在物理建模和構圖方面表現得更好。同以往工具將輸入影象統一裁剪為固定格式不同,Sora 可以直接按原圖比例和解析度生成影片,這就意味著 Sora 能夠更好地把握影片的主要內容,且能以不同角度模擬同一物體的動作。
OpenAI 釋出的示範影片之一的截圖,對應的指令為 “美麗的雪城東京很繁華。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天並在附近的攤位購物。美麗的櫻花花瓣隨著雪花在風中飛舞”。
但在外界驚呼其能力的時候,還有很多的未知。比如不能確定 Sora 能否支援除英語外其他語言,也不知道什麼時候會開放給更多人。目前只有一小部分 “視覺藝術家、設計師和電影製作人” 和特定的安全測試人員獲得使用許可權。
官網上的技術檔案中也不過簡單闡明瞭技術的大致原理,提及使用 GPT、DALLE-3 等前代技術用於文字分析,但再沒有像 GPT-3 那樣在論文中公佈訓練集和模型結構。
紐約大學教授謝賽寧就指出 Sora 可能運用了他和另一名研究者開發的技術模型,還有說法認為 Sora 使用了虛幻引擎 5 來建立部分訓練資料。OpenAI 始終拒絕透露系統學習了多少影片或影片來源,只是表示培訓包括公開影片和版權所有者許可的影片。
這種保密似乎成了最近大公司釋出大模型新版本時的標準動作。Google 在 Sora 釋出同一天推出的 Gemini 1.5 升級版本,也是專供一小部分的開發者和企業客戶有限預覽。斯坦福大學基礎模型研究中心對十家主要 AI 模型的分析顯示,沒有一家主要的基礎模型開發商能夠提供足夠的透明度。
OpenAI 對暫不釋出工具和更多細節的解釋是還需要減少生成影片中的錯誤資訊、仇恨內容和偏見,並且給所有生成的影片都打上了水印,但水印一樣可以被刪除。考慮到短影片已然可以對政治產生重大影響,人工智慧領域面臨的監管壓力將會前所未有地高。(實習生尚翊)