近日,AI(人工智慧)新銳巨頭OpenAI推出文生影片模型Sora,掀起了全球範圍內的熱烈討論。
由於在AI生成影片的時長上成功突破到一分鐘,再加上演示影片的高度逼真和高質量,Sora立刻引起了轟動,並引發外界的種種猜測:能在釋出ChatGPT不到兩年後就推出Sora,OpenAI是否“藏了一手”?表現驚豔的Sora是否已經具有世界模型的特點?
不過,OpenAI尚未宣佈Sora對公眾正式開放的日期,目前也只向安全團隊、一些視覺藝術家、設計師和電影製作人開放了Sora的使用許可權。除了內部人士不斷放出的演示片段外,OpenAI還在Sora的官網上放出了其技術報告。
首先,與GPT模型類似,Sora使用Transformer架構,這被許多研究者視為其強大能力背後的主要功臣。
本質上,Sora和Pika、Runway等文生影片模型採用了相似的底層模型,即Diffusion擴散模型。不同之處在於,Sora把其中的實現邏輯進行了變化,將U-Net架構替換成了Transformer架構。
北京郵電大學智慧互動設計專業副教授譚劍為澎湃新聞記者介紹,與其他AI模型架構相比,Transformer架構有兩大理論優勢:“它的核心能力是能自動構建不同維度、不同層級的知識網路或資訊網路,也就是一張無縫的思維導圖……權重關聯機制(attention機制)也是它核心能力的另一種體現,就是它會根據任何資料的上下文,來理解相關的高低維度資訊。”
譚劍強調,要充分發揮Transformer架構的核心能力,一個必要條件就是輸入資料足夠多、維度足夠大。
一位AI大模型從業人士告訴澎湃新聞記者,Sora的主要技術思路是“用視覺塊編碼(Visual Patch)的方式,把不同格式的影片進行統一編碼,然後用Transformer架構進行訓練,並引入類似Diffusion的Unet方式在降維和升維的過程中做加噪和去噪”。
透過細節上的設計,Sora解決了“閃爍”(幀間細節跳變)的問題,還能直接生成高解析度(1080p)的影象、長達60秒的影片,說明“訓練的序列也比較長,訓練時候的視窗至少也有五秒”。
不過,目前看來,OpenAI的Sora報告中依然藏有許多謎團。
浙江大學百人計劃研究員、博士生導師趙俊博對澎湃新聞記者表示,Sora所採用的擴散Transformer架構“可能是成功的關鍵之一”,但OpenAI目前放出的內容基本上也沒有涉及更多的技術細節:“從第一性原理出發,其實我們目前對於Transformer神經網路架構的理解是非常不夠的,尤其是為什麼這個模型在scale up(擴大規模)之後能有如此大的魔力。”
此外,趙俊博也強調,資料是一個巨大的問題。對於Sora採用了怎樣的資料進行訓練,圈內依然眾說紛紜,推測可能是運用了遊戲引擎生成的大規模資料:“可能是遊戲引擎裡面吐出來這種資料,但是它這個資料到底是怎麼收集、如何生產加工,最後如何喂到Sora裡面進行管線化的預訓練,我們確實不知道。”
那麼,Sora的出現會給AI業界和學界帶來怎樣的影響?
趙俊博表示,因為Sora在技術上仍有許多有待驗證的地方,應該“讓子彈再飛一會兒”:“Sora確實會對AI影片領域內的研究者和競品產生很大沖擊,但那畢竟只是一小部分人。目前從生成模型的應用層面看,可控性依然是個很大的問題......所以說如果要討論產業衝擊,還是要搞清楚玩家是誰,什麼場景,解決什麼痛點和需求,這些產業化的落地思維在這裡也是一樣的。”
譚劍提到,OpenAI已經用ChatGPT和Sora充分驗證了納什嵌入定律。所謂納什嵌入定律,簡單來說,就是指高維資訊世界一定能無縫相容低維世界,用口語來表達就是“降維打擊”:“雖然這種高維AI模型的資料和硬體等門檻很高,但已經有了第一個跨越的公司,那麼後面還會有更多團體可能成功,我對這一點保持樂觀。”
值得注意的是,就在OpenAI於2月15日釋出Sora的幾小時前,谷歌也釋出了旗下大模型Gemini的1.5版本,其中首個登場的多模態通用模型Gemini 1.5 Pro,把穩定處理上下文的上限擴大至100萬tokens。然而,Gemini 1.5一出場就被Sora搶盡了風頭。
再加上,OpenAI在Sora報告中提到的多篇核心論文都是由谷歌科研團隊提出的,也由此引發了對於這兩家企業“恩怨情仇”的調侃,以及OpenAI是“站在谷歌肩膀上”的說法。
對此,趙俊博認為,理論的相互分享雖然很重要,但是現代科技的發展環境下,單打獨鬥、“一人成英雄”的時代已經結束了:“關鍵是人才團隊、算力和資料的堆砌,以及時間上的積累,光靠一個idea就能實現一個這麼驚豔的系統已經不現實了,把它當成一個‘大裝置’來看的話,裡面‘工藝’的探索和形成是最為關鍵的。”
最後,對於Sora的出現是否和AGI(通用人工智慧)有關聯,趙俊博幾天前也在朋友圈撰文表示:“我反對很多自媒體把這個技術類比在AGI上面,我們距離AGI還差得遠……我覺得一個世界模型需要有能力去輸出動作,輸出對未來的預測,輸出對當前所處狀態的判斷。Sora大機率是學到了一些世界運轉的模式,但是否具備其他上述能力我們不知道。但是它的embedding(嵌入)如果有一天能開出來,或許我們能知道更多。”