徹底顛覆！從業者感慨：要卷死一堆影片公司了

作者丨孔海麗

編輯丨張偉賢

圖源丨圖蟲

影片領域的“GPT時刻”也來了。

北京時間2月16日凌晨，OpenAI推出了新的文生影片模型Sora，可以把簡短的文字描述轉換為長達60秒的高畫質影片，繼文字、圖片的革命之後，繼續顛覆影片領域。

OpenAI一口氣放出的48個示例影片中，既有對現實世界的高度還原，也有動畫或科幻大片，角色與場景互動複雜、運動軌跡清晰、情感生動、細節逼真，一鏡到底和多機位統統不在話下。

更重要的是，Sora初步實現了對真實世界的洞察與學習，已經能夠理解角色在物理世界中的存在方式並預判執行軌跡。

儘管目前Sora仍難以準確模擬複雜場景的物理特性，並且可能無法理解因果關係，比如人物吹蠟燭之後，燭火併未搖曳或熄滅。但這種趨勢已經擺上了檯面，OpenAI開闢了一個全新的賽道，並讓其他仍困在幾秒影片時長的AI影片模型創業公司，遭受降維式輾軋。一位AI大模型從業者感慨：“要卷死一堆文生影片公司了，秒殺……”

一個能夠理解、感知、創造內容的AI影片模型，將撕開無限可能。OpenAI扔下的這枚重磅炸彈，商業落地場景非常豐富，戰慄的將不只是影視行業，整個內容創作行業或都將被動搖。

在實際應用層，Sora可能會為短影片創作、遊戲呈現效果、機器人具身智慧、自動駕駛等，帶來巨大的影響與突破。假以時日，真實世界與影片虛擬世界的區隔，或許也將被削弱，大洋彼岸已經在擔心AI影片會影響總統大選了，正在採取行動應對AI生成的深度偽造。

對於Sora模型的意義，OpenAI官方如此表述：“能夠理解和模擬現實世界的模型的基礎，我們相信這一能力將是實現AGI的重要里程碑”。

上難度：理解真實世界

與現有文生影片技術相比，OpenAI的Sora幾乎將AI影片的競爭，從冷兵器時代推進到了現代化戰爭階段，時長、效果、互動性，都秒殺現有技術。

影片生成領域面對的一個重要挑戰就是，在生成的較長影片中保持時空連貫性和一致性。市面上現有的AI影片產品，時長一旦超出幾秒，將無法正確呈現物體之間的互動關係，逐漸“離譜”。

因為AI對影片的學習，依賴大量的訓練資料，如果訓練資料中沒有涵蓋某種特定的過渡效果或動作，AI就很難學會如何在生成影片時應用這些效果。也就是說，時長一旦變長，現有AI的能力就會“露餡”。

更根本的原因在於，現有AI無法理解物理世界的執行法則，也就無法預測物體和角色在時間線上的運動軌跡。

但OpenAI做到了。Sora直接將時長提升到了60秒，且效果高畫質，細節豐富。

OpenAI官網呈現的一則60秒影片顯示，女主與周圍的街道、人群、燈光、都非常清晰自然，完全沒有AI影片常見的“掉幀”問題，甚至肢體動作、面部表情、水中倒影、墨鏡折射畫面都很連貫。

另一則影片中，穿過東京郊區的火車車窗倒影，不僅顯示了車窗外掠過的建築，近距離經過的另一節車廂甚至加深了車內燈光、人物的折射清晰度，非常符合常理，並且流暢自然。

Sora經常能夠為短期和長期物體間的依賴關係建模。例如，在生成的影片中，人物、動物和物體即使在被遮擋或離開畫面後，仍能被準確地儲存和呈現。並且，Sora能夠在單個樣本中生成同一角色的多個鏡頭，並在整個影片中保持其外觀的一致性。

一則太空人科幻影片中，同時呈現了近景、遠景中的主角，被太空船內部場景切分開的人物鏡頭，分別處於凝視、行走、思考等不同的狀態，人物一致、行為連貫。

據OpenAI官網介紹，Sora是一種擴散模型，相較其他模型，看起來具備了“理解”和“思考”能力。

與AI影片明星創業公司Runway所使用的Gen模型相比，Sora模型不僅瞭解使用者在提示中要求的內容，還了解這些角色在物理世界中的存在方式，能夠理解和模擬運動中的物理世界，能夠生成具有多個角色、特定型別的運動，以及主題和背景的準確細節的複雜場景。

與GPT模型類似，Sora使用的是transformer架構，該架構對影片的時空序列包和影象潛在編碼進行操作，能夠主動填補影片中的“缺失幀”，從而看起來具備“預測性”，使得AI影片模型不再那麼“被動”。

一位AI大模型從業人士對21世紀經濟報道記者表示，OpenAI又一次改寫了遊戲規則，把文生影片推高到了“理解真實世界”的維度。

這也正是世界模型的特點——讓機器能夠像人類一樣對真實世界有一個全面而準確的認知。世界模型不僅包括對事物的描述和分類，還包括對事物的關係、規律、原因和結果的理解和預測，從而進行推理和決策。

英偉達人工智慧研究院Jim Fan表示：“如果你還是把Sora當做DALLE那樣的生成式玩具，還是好好想想吧，這是一個數據驅動的物理引擎。”有技術人員告訴21世紀經濟報道記者，Jim Fan的言外之意在於，不能忽略Sora所折射的“世界模型”的更進一步——AI已經可以讀懂物理規律。

隨著訓練的繼續推進，AGI的實現或許不再是紙上談兵。

打擊力：顛覆現實世界

OpenAI推出Sora之後，網際網路世界除了感嘆，還有一片哀嚎。

在OpenAI的推文下面，不少評論打出“gg 皮克斯”、“gg好萊塢”（注：gg是競技遊戲禮貌用語，good game的縮寫，用於表達“打得好，我認輸”），馬斯克更是在X上發表評論，稱“gg 人類”。

有不少網友感慨自己“要失業了”，影片行業將被徹底顛覆。

有來自電影製作行業的從業人士告訴21世紀經濟報道記者，如果Sora繼續進化下去，取代一部分傳統影片製作方式是必然的，就像AI繪畫取代畫師、設計師一樣，這是趨勢。

“短影片、概念影片、廣告、微短劇、甚至是長影片裡，都會大量使用AI生成影片。”該人士表示：“不過傳統影視劇該怎麼拍還得拍。”

觀點普遍認為，AI影片模型將改變電影工業的生產方式，雖然不能完全取代現有人力，但將會成為新的生產工具，影視行業從業人士需要儘快把工具“為我所用”。

一位影視編劇提出了另一種想法，她認為，Sora這類AI影片模型大大降低了精美影片的製作門檻，以後編劇的奇思妙想將有更大的呈現空間，“技術不到位”、“經費不夠”的掣肘都將減小很多。

比如，OpenAI的一則影片中，巨大的猛獁象緩緩走來，形象逼真，身後騰起了雪霧，遠處被白雪覆蓋的樹林與山脈清晰可見。而眾所周知，動畫《冰川時代》的實際製作費用達到8000萬美元之高，耗時4年之久。

“那些有才華但苦於缺少投資的導演們，可能會借力Sora創造出許多驚人的作品。”她補充說。

目前，Sora尚未對公眾開放，OpenAI正在與一些視覺藝術家、設計師和電影製作人合作，以探索如何讓Sora對創意專業人士提供有效幫助。

而雙刃劍的另一面，是AI影片模型給現實世界帶來的虛假資訊威脅也將大大增加。

近期，AI合成的泰勒·斯威夫特不雅照曾引起過軒然大波，就連白宮方面也呼籲國會“應立刻採取行動”，而美國政壇和民眾也對背後凸顯的技術、法律漏洞感到擔憂。

AI生成“惡性影片”對現實世界造成的困擾，將數倍於圖片效果。為此，美國聯邦貿易委員會將致力於利用工具來檢測、阻止相關冒充欺詐行為。

為此，OpenAI表示，將在提供Sora之前採取幾個重要的安全措施，與錯誤資訊、仇恨內容和偏見等領域的專家進行合作，對模型進行對抗性測試；OpenAI也在構建工具來檢測誤導性內容，例如檢測分類器，可以判斷影片何時由Sora生成。

除了開發新技術為Sora保障安全性，現有的安全方法也適用於Sora模型，例如那些請求極端暴力、色情內容、仇恨影象、名人肖像或他人IP的提示將被模型拒絕，也開發了強大的影象分類器，用於檢視生成的每個影片的幀數，以確保在向用戶顯示影片之前遵守OpenAI的使用政策。

但OpenAI也承認，無法預測人們使用Sora的所有有益方式，也無法預測人們濫用它的所有方式。

不過，目前Sora還有其侷限性，比如可能難以準確模擬複雜場景的物理特性，並且可能無法理解因果關係的具體例項。例如，一個人咬一口餅乾之後，餅乾可能沒有咬痕。該模型還可能混淆提示的空間細節，例如，左右混淆，人類在朝著跑步機的尾部跑步。也可能難以精確描述隨時間推移發生的事件，例如，五隻灰狼幼崽嬉戲的畫面中，幼崽數量可能忽多忽少，有的幼崽會憑空出現或消失。

隨著技術進步，或許未來，如何判定影片真假，也將成為一門學問。

壓迫感：巨頭步步碾壓

另一廂，谷歌也於同一日釋出了Gemini 1.5版本，在文字的長度上實現了大幅突破。但終究被OpenAI的影片模型搶盡了風頭。

一批AI影片模型創業公司也將命懸一線。

文生影片的生成模型最早出現在2022年底，Pika lab、Runway都分別貢獻過AI生成影片的話題。早期，就連Meta和谷歌的AI影片都有著“一眼AI”的問題，清晰度、邏輯性有明顯缺陷。

經過不懈努力，Runway在2023年11月釋出了AI影片生成工具Gen-2，修復了影片畫質，也克服了不連貫、閃爍變形以及低清等問題，但生成的影片時長最多隻能達到18秒。

眼下，OpenAI一舉把AI影片生成時長拉到了60秒，並且運鏡複雜、場景多變、人物還能夠表達豐富的情感色彩，簡直斷了其他小公司未來的路。

業內分析人士表示，如果其他AI影片模型創業公司無法儘快追趕OpenAI，恐怕將直接失去生存空間。

但這種追趕並不容易。前述AI大模型從業者向21世紀經濟報道記者表示，僅就公開資訊而言，其他公司與OpenAI在技術能力、訓練量、耗資程度方面，都有著代際差異。

“如果長期關注AI文生影片的進展，就會知道OpenAI的Sora有多強大，是專業拳手暴打小白的差距。”、“AI真的分成兩種，OpenAI和其他AI”……相關評論也是層出不窮。

一位關注AI大模型的投資人向21世紀經濟報道記者透露，小型公司跑出來的機率變得更渺茫了，尤其是這麼燒錢的領域，很難在巨頭的陰影下做出亮點。

從文字大模型、影象大模型，再到如今的影片大模型，OpenAI深刻詮釋了“一步先、步步先”的殘酷性。

實際上，Sora之所以能這麼出色，也與OpenAI之前的領先優勢有關。

OpenAI放出的技術報告透露，Sora模型對語言有深刻的理解，使其能夠準確地解釋提示並生成表達生動情感的引人注目的角色。這背後有GPT的功勞，OpenAI會先利用GPT將簡短的使用者提示轉換為更長的詳細內容，再發送到影片模型。

他們還為影片生成呼叫了DALL·E3（OpenAI的影象生成模型）中的re-captioning技術，為視覺訓練資料生成高度描述性的文字，使得模型能夠更忠實地遵循使用者指令。

除了能夠以文字生成影片，Sora模型還能夠獲取現有的靜止影象並從中生成影片，提高影片的準確性及細節顆粒度，還可以對現有影片進行擴充套件或填充“缺失幀”。

也就是說，Sora是站在OpenAI的大語言模型GPT以及圖片大模型DALL·E的肩膀上，並且跑出了加速度。

一位矽谷AI行業創業人士感慨說：“創業之路，離天堂太遠，離巨頭太近，如果又沒有自己的壁壘，實在太容易被淘汰了。”

而其他落後於OpenAI的科技巨頭，在AI大模型這條路上，也要時時接受來自先行者的壓迫感。

SFC

本期編輯劉雪瑩實習生陶陶

21君薦讀