Sora為何出道即碾壓主流AI影片模型

近日，AI（人工智慧）新銳巨頭OpenA推出文生影片模型Sora，將人們的視線再次引到了AI影片生成賽道。

由於在AI生成影片的時長上成功突破到一分鐘，再加上演示影片的高度逼真和高質量，Sora立刻引起了轟動。不過，OpenAI尚未宣佈Sora對公眾正式開放的日期。Sora將首先被提供給安全團隊，以評估產品的危害或風險，一些視覺藝術家、設計師和電影製作人也能獲得Sora的訪問許可權。

在Sora推出之前，已經出現了一些使用者認可度較高的AI生成影片模型。為什麼Sora能引發如此大的轟動？多家外媒對三款熱門文生影片模型Runway、Pika Labs和Stable Video進行了分析，並比較了Sora和它們之間的技術差別。

時長：60秒 vs 16秒

在Sora橫空出世之前，Runway一直被視為AI生成影片的預設選擇，尤其是自去年11月推出第二代模型以來，Runway還被稱為“AI影片界的MidJourney”。第二代模型Gen-2不僅解決了第一代AI生成影片中每幀之間連貫性過低的問題，在從影象生成影片的過程中也能給出很好的結果。

Runway能夠生成已經很逼真的四秒短影片。來源：Runway

而在Sora釋出後，Runway的CEO克里斯托瓦爾·巴倫蘇埃拉（Cristóbal Valenzuela）便在X平臺上釋出了兩個字：“Game On（比賽開始了）。”

Sora最震撼的技術突破之一在於其輸出的影片時長。Runway能夠生成4秒長的影片，使用者可以將其最多延長至16秒，是AI生成影片在2023年所能達到的最長時長紀錄。Stable Video也提供4秒的影片，Pika則提供3秒的影片。在這一方面，Sora以1分鐘的時長向競爭對手們提出了挑戰。

Sora傳播度最高的時長60秒的影片之一，女子行走在東京街頭。來源：Sora

Sora模型能夠實現影片時長突破，主要功臣是其所採用的擴散Transformer架構，而Sora的創始者之一、現任OpenAI工程師的William Peebles剛在去年和別人一同釋出了針對該架構的研究論文。

本質上，Sora和Pika、Runway採用了相似的底層模型，即Diffusion擴散模型。不同之處在於，Sora把其中的實現邏輯進行了變化，將U-Net架構替換成了Transformer架構。

不過目前，外界尚不清楚Sora提供了哪些功能以供使用者定製輸出影片，因此Runway仍可能是Sora的替代方案之一。今年1月，Runway剛宣佈，使用者將能夠透過多頭運動筆刷（Multi Motion Brush）功能實現對AI生成影片中多個元素的運動控制。此外，Runway也因其提供了集合多種AI工具的影片製作解決方案而備受推崇。

鏡頭語言：運動鏡頭 vs 靜止視角

值得注意的是，X平臺上的一些使用者表示，在OpenAI推出Sora的2月15日晚上，AI影片生成初創公司Stability AI也在官網和X平臺上釋出了新動態，宣佈了Stable Video Diffusion更新1.1版本。但是，幾分鐘後，這兩條訊息都迅速消失了。

被Stability刪掉的文章截圖。來源：X平臺

外界無從得知這究竟是由於操作失誤，還是Stability觀察到了兩種AI生成影片之間的巨大質量差異，選擇重新制作廣告。Stable Video和前兩款產品一樣，都沒能脫離現有文生影片的一般模式，即輸出單一的、通常是靜止視角的短影片片段。相比之下，Sora的宣傳影片包括變換攝像機角度、電影式剪輯和場景變換，也就是人們常說的鏡頭語言的使用。

此外，許多分析都指出，Sora帶有世界模型的特質。所謂世界模型便是對真實的物理世界進行建模，讓機器能夠像人類一樣，對世界產生一個全面而準確的認知。這一特性使得AI影片生成更流暢、更符合邏輯，降低了影片模型的訓練成本，提升了訓練效率。

由Sora生成的“賽博朋克背景下機器人的生活故事”。來源：Sora

和Runway一樣，Stability AI的CEO埃馬德·莫斯塔克（Emad Mostaque）也在X平臺上感慨“奧特曼（OpenAI的創始人兼CEO）真是一個魔術師”，並稱Sora可以被視為AI影片的GPT3，將在未來幾年內得到擴充套件、細化、調整和最佳化。

劣勢：有無免費選項，能否開源

和前輩們相比，Sora也存在兩個可能令其不會被使用者青睞的問題：有無免費選項，以及能否開源。

作為AI影片領域的新晉競爭者，Pika Labs於去年11月推出了生成式AI影片工具Pika 1.0，也在推出時憑藉精美的演示影片引起了轟動。Pika已於去年12月公開，與Runway具備相似的質量，並在短時間內建立了一個非常活躍的使用者社群。

Pika生成的影片截圖。來源：Pika

最重要的是，和其他競爭對手相比，Pika提供了更具吸引力的免費使用選項。Runway只會給使用者125個不可續的免費積分，而Pika每天都會給使用者發放30個積分，這使得它在短時間內擁有了一個龐大且活躍的使用者社群。

Stability AI旗下的Stable Video Diffusion則是一款開源的影片生成模型。類似於影象版的Stable Diffusion，該模型可以根據使用者自己的需求進行定製，並且可以在個人裝置上進行本地安裝，而Sora大機率永遠不會提供這種功能。

目前，Stable Video Diffusion也僅供部分使用者試用，在Stability的官網上可以加入等待列表。