Sora如何降維打擊其他文生影片大模型？記者實測對比

OpenAI的文生影片大模型Sora已經發布兩天，其衝擊力依然不減。

2月18日，新京報貝殼財經記者進行了Sora與其他文生影片大模型的對比測試，發現Sora在時間和影片生成質量上均對“同行”產生了“降維打擊”：其他文生影片大模型僅能生成3至4秒的影片，而Sora生成的影片時間最多可達1分鐘，且景物也更加清晰穩定、符合描述。

不過，隨著越來越多使用Sora製作的影片出現以及部分技術細節的公開，業界開始對其進行全方位審視，其中，讚揚和驚歎聲不少，但Sora生成的影片也被發現存在諸多不合理之處。

文生影片對比實測：Sora從“動圖”升級到“短片”

“一個時髦的女人走在東京的街道上，街道上充滿了溫暖發光的霓虹燈和生動的城市標誌。她穿著一件黑色的皮夾克，一件紅色的長裙，一雙黑色的靴子，還帶著一個黑色的錢包。她戴著太陽鏡，塗著紅色的口紅。她自信而隨意地走著。街道是潮溼和反光的，創造了一個五顏六色的燈的鏡面效果。許多行人走來走去。”這是OpenAI官網介紹Sora時，出現的第一組提示詞。

在OpenAI推出Sora之前，文生影片領域的創業公司主要包括Pika、Runway等，為了驗證Sora的能力，新京報貝殼財經記者將上述同樣的提示詞輸入Pika文生影片模型，以及Runway旗下的Gen-2video文生影片模型進行了實測。

在相同提示詞下，新京報貝殼財經記者使用Pika生成的影片截圖。

在相同提示詞下，新京報貝殼財經記者使用runway旗下Gen-2video生成的影片截圖。

OpenAI官網上Sora生成的影片。

貝殼財經記者發現，在相同的提示詞下，Pika僅能生成3秒的影片，Gen-2video則可以生成4秒的影片。其中，Pika的影片為“時髦女人”的背影，無法體現她“戴著太陽鏡，塗著紅色的口紅”的描述，不過對於提示詞中“潮溼反光的街道和五顏六色燈的鏡面效果”體現得較好，但整體上影片較為模糊。

Gen-2video則跳出了“無法輸入這麼多提示詞”的彈窗，並根據能夠輸入的部分生成了一個4秒的影片，該影片相比Pika顯然精細很多，也符合提示詞描述的人物形象，包括“街道、人群、黑錢包”等。

但可以發現，無論是Pika還是Gen-2video，都忽略了“一件紅色的長裙”這個細節，且貝殼財經記者透過觀看影片發現，這兩段影片仍能看出AI生成的影子，特別是Gen-2video的人物臉部，有細微的形變，這正是AI生成影片的特點之一：難以始終保持同一人物的連貫性。

而Sora不僅體現了提示詞中的全部細節，而且還很好地保持了人物的連貫性，使得該影片幾乎可以“以假亂真”。當然，如果仔細觀察，可以發現該影片中人物的腳步在某幾個幀會出現不自然的扭曲，以及該影片中的背景廣告牌雖然酷似日文，但由於目前AI還無法直接在影片中“認識”文字，其只能生成似是而非的“日文”，這都是AI生成影片的特點之一。

但即便如此，Sora還是用事實顯現出了同其他文生影片大模型的代差。

在谷歌和推特都有從業經歷的AI創業者Gabor Cselle也釋出了使用相同提示詞，在其他四個文生影片模型中“復現”Sora“穿過下雪、櫻花飛舞的東京街道……”的場景，並表示“其他模型達不到能和Sora比較的效果”。

Gabor Cselle社交賬號截圖。

在國內，也有不少AI從業者直觀地感受到了Sora帶來的衝擊。

清華大學瀋陽教授團隊一直聚焦AI在各個領域的應用，並也一直在使用AI模型進行文生影片的操作。2月17日，他在朋友圈釋出了一條團隊成員花兩天製作的“半失敗”AI影片，並表示“從這裡可以看出和Sora的差距，我讓她暫時放棄這個作品，等演算法升級再重做一下。”

對於Sora出現後，使用AI製作影片的工作能否繼續，瀋陽回覆貝殼財經記者“慢慢弄，往前挪唄”。

理解物理世界顛覆影視、遊戲行業 Sora是“通用世界模型”嗎？

為何Sora能夠在影片生成的質量上明顯領先同業產品？OpenAI在官方網站上表示，Sora是能夠理解和模擬現實世界的模型的基礎，相信這一能力將是實現通用人工智慧的重要里程碑。不過，Sora還存在很多不完善之處，仍然處於世界模型研究應用的初期階段。

什麼是世界模型？貝殼財經瞭解到，實際上runway公司在去年12月就提出過要開發通用世界模型（General World Model），用其旗下的Gen-2模型來模擬整個世界，“我們相信，人工智慧的下一個重大進步將來自理解視覺世界及其動態的系統，這就是為什麼我們要圍繞通用世界模型開始一項新的長期研究工作。”

從效果上看，目前OpenAI已經透過Sora部分做到了這一點，因為只有理解物理世界的執行法則，文生影片模型才能創造出更加逼真的影片。英偉達高階科學家Jim Fan就對此表示，Sora是一個數據驅動的物理引擎，“它是對許多世界的模擬，無論是真實的，還是虛構的。該模擬器透過去噪和梯度學習方式，學習了複雜的渲染、直觀的物理、長期推理和語義理解。”

而理解現實世界的物理法則，也正是通往通用人工智慧這一“終極目標”的必經之路。

對此，不少科技圈名人都發出了驚歎，馬斯克直接在社交平臺上釋出短評“GG世界”（GG是網路遊戲的用語之一，原指遊戲結束時玩家互相致意，後引申為“遊戲結束”）。

360公司董事長周鴻禕則直接在朋友圈發文稱，一旦AI能夠接上攝像頭，觀看並理解世界上所有的電影，它對世界的理解能力將遠遠超過僅僅透過文字學習所能達到的水平。在這種情況下，實現通用人工智慧不再是遙不可及的夢想。周鴻禕甚至預測，這一天可能在一兩年內就會到來，而不是十年或二十年。

在現實層面，有更多人擔心文生影片大模型可能直接衝擊影視和遊戲行業。美國舊金山早期投資人Zak Kukoff預測，在5年內，一個不到5人的團隊將可能用文生影片模型製作出一部票房收入超過5000萬美元的電影。

值得注意的是，日前大火的遊戲《幻獸帕魯》的開發團隊就僅有4人，有許多人質疑該團隊使用了AI生成技術製作遊戲角色，以節省成本。而根據OpenAI 釋出的最新Sora技術報告，Sora能夠模擬影片遊戲的數字化過程，Sora能在控制 Minecraft 遊戲角色進行基本操作的同時，高質量動態渲染遊戲世界。這意味著，個人開發製作遊戲的門檻可能會被進一步降低。

前阿里巴巴副總裁，Lepton AI公司創始人賈揚清則直接評價Sora“真的非常牛”，他表示Sora的問世可能會給對作OpenAI的公司帶來一波被大廠FOMO（害怕錯過機會而導致的收購）收購的機會。賈揚清預測，大模型市場長期仍將呈現閉源寡頭的格局，開源大模型仍然需要一段時間才能追趕上，而從演算法小廠的角度來看，要麼在演算法上與OpenAI媲美，要麼深耕垂直領域的應用，要麼選擇開源道路；最後，基礎設施的需求將繼續猛增。

記者聯絡郵箱：luoyidan@xjbnews.com

新京報貝殼財經記者羅亦丹

編輯嶽彩周

校對盧茜