2024.12.19
本文字數:5465,閱讀時長大約10分鐘
導讀:從這次推出的Sora來看,影片生成賽道還未拉開差距。
作者 |第一財經 劉曉潔
“還記得2024年2月16日,大過年的,大家興奮得一夜沒睡,被Sora放出來的Demo震驚。快一年過去了,奧爾特曼終於放出了Sora,眼前一黑的是,訂閱可以無限生成1080p影片的pro模式高達200刀!”AIGC創作者陳微感慨。
陳微(@尾鰭Vicky)畢業於北京電影學院,是一名青年導演兼編劇,同時也是AIGC創作領域的KOL,與多個影片生成平臺都有合作。12月10日,Sora釋出的第一時間陳微就“殺”進了網址註冊,儘管價格昂貴,但畢竟Sora是第一個放出產品樣片的DiT產品,“硬著頭皮都在下單”。
在剛放出網址的那晚,Sora訪問量暴增,官方在10日凌晨停止註冊,而在臨關閉之前,與陳微一樣成功註冊的還有AI Talk主理人、AIGC創作者汗青和AI博主@秋芝2046,這些創作者群體是未來影片生成的主流客戶。為Sora“氪”近1500元,能出什麼樣的效果,錢花得值不值?
在經歷了將近一年DiT技術井噴式爆發之後,創作者們對Sora的期待值已經沒有那麼高,國內的可靈、即夢、海螺以及國外的Runway、Luma等各種DiT架構的影片模型效果已經不差。儘管如此,Sora也未達到很多人的預期,雖然產品體驗上有亮點,但底層能力和同類產品沒有拉開差距,肢體消失、東西亂飛的畫面仍然存在,也和所有的AI影片一樣需要“抽卡”。
上海交通大學電子系教授、博導倪冰冰也體驗了Sora,他對第一財經表示,團隊從幾個維度對Sora以及幾個頭部的國產影片生成工具進行對比,發現這次的Sora版本並不表現得比國產模型好,甚至在一些方面如一致性上,顯著不如國產模型。
影片生成賽道還在繼續卷,一年裡國內外已經發布了數十個產品,在年末這一趨勢仍未停止,谷歌剛剛迭代推出了Veo2,不少人覺得在物理規律的模擬上比Sora更好。但未來誰能留在牌桌,現在還無法下定論。
汗青用Sora生成的獨角獸畫面截圖
起大早趕晚集
年初Sora推出時大家驚呼“現實不存在了”,年末,“難產”10個月的Sora終於正式向用戶開放。開放初期不少關鍵詞還是 “王者歸來”,但隨著更多使用者氪金體驗後,評價很快反轉,失望、不及預期是更多人的反饋。
“那天晚上釋出之後,部分媒體是為了趕早,加上當時很卡頓,沒有真正測試它的效果。第二天我們真正去測試的人刷完了積分,體驗了每個功能點後,我們認為它生成失敗率很高,並沒有之前預期的驚豔。”陳微體驗後認為,Sora的故事板功能和文生影片確實很好,然而,其圖生影片和整體模型並未達到預期,“畢竟國內這類AI影片模型平臺大家都已經用了這麼久了”。
影片生成模型往往需要生成多次才能得到一個可用的片段,業內將此稱之為“抽卡”。陳微發現,Sora的抽卡頻次仍然很高,“我的Demo中可以看到它無法區分物理方向,例如讓一隻狐狸向前行走,它會向後跑,女孩子頭髮飄動的物理識別不佳”。
秋芝對記者表示,年初出來時Sora帶來的震撼幾乎是全民知曉的,放出的素材也是之前沒有見過的,OpenAI將大家的期待值拉得非常高,但釋出後卻發現,底層模型能力並未拉開差距,此前提出的世界模型、真正理解物理規律等方面的能力都還沒有。
“Sora的不及預期是可以預見的。”某AI公司產品經理表示,Sora的問題在於,文生影片能理解的概念有限,整體出片率低,複雜場景生成的東西基本用不了,而圖生影片會嚴重偏離原始圖片的風格,場景之間連貫性不足。商業化是所有產品都需要考量的因素,布萊恩認為,Sora目前的文生影片也還不具備商業化的條件。
Sora之所以引來使用者如此多的吐槽,更大原因是其“錯誤的時間,並不領先的效果”,Sora推遲釋出的這10個月,國內外一批影片大模型相繼跟隨DiT架構路線釋出新產品,甚至經歷了多輪快速迭代,而此時趕了個晚集的Sora,並沒有取得領先。
今年AI圈的影片生成大戰從Sora開始,4月國內生數科技釋出影片大模型Vidu,6月快手釋出影片生成模型可靈,Luma AI釋出Dream Machine,Runway在7月宣佈Gen-3 Alpha向所有使用者開放,同月愛詩科技釋出PixVerse V2,隨後智譜正式釋出清影影片……短短一年行業目睹了幾十款影片生成模型的問世。
在眾多競爭者中,目前國內創作者用得較多的頭部產品包括位元組跳動的即夢、快手的可靈、Minimax的海螺,在國外則有Runway、Luma等。
倪冰冰是國內最早開展視覺內容智慧生成研究的學者之一。他告訴記者,團隊從細節保留、物理規律遵守、語義正確性、轉場一致性等幾個維度對Sora以及幾個頭部的國產影片生成工具進行對比,得出的結論是在這些維度上,這次的Sora版本並不表現得比國產模型好,甚至在一些方面比如一致性上,比國產模型顯著不如。
“當下國內的AI影片產品追得很緊、也很卷,大家已經看過太多好的效果了,隨手應付的4秒時代已經回不去了。”陳微表示,除了模型能力,使用者也很在乎抽卡率、互動、套餐價效比等等,Sora目前不管從哪個角度來對比,都沒有足夠優勢。她對記者表示,如果純粹只是為了做AI影片,200美元別買,20美元也不太有必要買。
智譜CEO張鵬在一場論壇上評估Sora時指出,Sora的效果離自己的預期有一點偏差。如果看技術指標,國內有的影片生成模型不比Sora差。但影片模型的比拼不是簡單地對比引數,而是如何產生實際的應用、產生生產力。張鵬認為,Sora這次釋出把很大的精力放在了產品而非模型上,比如影片編輯能力、工作流,這是面向使用者需求的轉變。
此次Sora展示了一些新功能,包括使用者普遍反饋好用的故事板功能,可以用文字、圖片、影片更精準地控制同段時間內的鏡頭運動,以及可以用recut(重新剪輯)功能修整影片重新擴充套件生成,Remix工具可以替換、刪除或重新設計影片中的元素,Loop工具則可以生成無縫銜接的重複影片等等。
這些新功能讓Sora生成的影片方向更加可控。不過,陳微認為,在圖生模型能力這麼差的前提下,這些功能對她來說“都是白搭”。她提到,目前大家的工作流仍然是依靠圖生影片,因為商業化必須畫面可控、穩定和一致,Sora費勁心思將功能和互動設計得很有新意,但核心的圖生模型能力這麼差是很大一個問題。
200美元值不值
“腸子都悔青了,還我200刀。”有使用者體驗Sora後在社交媒體反饋。考慮到Sora並沒有大幅領先競品,有從業者認為,這個價格設計過於昂貴了。
“如果不是剛需,月費近1500元確實有些昂貴。”陳微表示,但行業其他同類競品的價格也並不便宜,作為商業化團隊是能負擔這一支出的。此外,200美元是一個ChatGPT Pro會員入場券,除了能無限生成影片外,還能無限制體驗OpenAI推出的GPT-4o和o1、新推出的通話功能等。
“作為AI重度使用者的創作者來說,200美元是划算的。”秋芝也認為。
此次Sora並沒有單獨作為產品定價,OpenAI給出的方案是,Sora Turbo將免費提供給ChatGPT Plus和Pro使用者,每月20美元(約合人民幣145元)的Plus使用者,每月最多可以生成50個480P解析度的優先影片;Pro訂閱者則最多可生成500個1080p的優先影片,此外慢速影片無限量生成,可下載無水印版影片,對應每月費用為200美元(約合1450元)。
不過,創作者告訴記者,500個優先影片是保守估計,由於Sora採用的是積分制定價策略,需要耗費的積分因解析度和持續時間而異,如果都是生成較高質量的情況下,大概只能生成幾十條影片。不過,在優先影片用完之後,創作者普遍認為,慢速影片目前也並不慢,2-3分鐘即可生成結果,影響並不大。
陳微經歷了近兩年影片模型的發展,她對價格已經有了預期,例如,國外頭部影片模型Runway的無限訂閱一個月費用是95美元(約692人民幣),國內影片模型海螺的無限生成高階會員價格是每月666元,快手的可靈最高檔會員是666元,包含800個影片生成,沒有無限生成的套餐。
陳微此前從事的是傳統影視,“以前拍攝時製作費很高,例如租攝影機的費用、人員工資以及場景費等,製作影片動輒花費幾千甚至上萬元。”她認為,對於非專業使用者而言,只是為新鮮購買完之後就會感覺價格偏貴,但對於從事專業影片製作的人來說,從各個平臺購買會員也是正常費用支出,製作商業作品都會承擔相應的費用。
AI Talk是國內第一批使用AI製作影片的公司,背後的主理人汗青畢業於清華美院,在網際網路大廠經歷了跌宕起伏的十年後,他選擇加入這一輪AI創業潮流,從事AI數字藝術創作。
談及Sora的價格,汗青對記者表示,作為一個有相對健康現金流的團隊,對這些商品的價格並不敏感,“只要有一個商業合作,成本就能覆蓋住,最終依靠AI工具賺取的肯定不止200美元。它會成為我的成本,比我招一位員工的價格便宜很多。”
在Sora開放第一天,汗青就充值了Pro會員,在充分體驗後他認為,Sora確實有做得很糟糕的地方,但是同時他也看到了模型的潛力。在他用Sora完成的一支影片中,有兩段畫面讓他印象深刻。
汗青用Sora生成的人物畫面
“其中一部分是獨角獸展翅往上飛的那一段,還有一個小朋友坐在購物車裡往前進的特寫畫面,跑了20秒人物表情都很真實。”在這兩段畫面裡,汗青看到了Sora模型更大的潛力,他認為,如果能夠有更多時間最佳化一些點,Sora的模型或許會有更大提升。
儘管OpenAI這家公司最近所做的一系列事情都不靠譜,但汗青認為,它在技術上的累積確實不能小覷。另一點是美學問題,Sora文生影片的畫面質量在美學上是較為突出的,如果對畫面美感要求較高,“開卡”的成功率會遠大於其他模型,這是汗青目前體驗到的Sora的優勢。
一片吐槽之聲中,Sora也並不是沒有優點,在此次推出的眾多產品功能中,創作者們不少都提到了recut(重新剪輯)功能和故事板功能在行業裡的創新。
重新剪輯並非是以往影視創作中的後期剪輯,“以一段7秒的影片為例,Sora可以刪除影片中的第1秒和第5秒,僅保留中間的4秒,並進行一個平滑的延展影片。”汗青表示,實際應用非常方便,能解決本來需要圖生影片做影片連線的問題。
秋芝在Sora出來的那一晚上就用完了快速影片的積分,充分測試後她認為,在本身的模型上沒有太多突出的點,但意外的點是產品和功能做得較多。秋芝認為,最大的亮點是故事板,這在其他同類競品上暫時沒有,是一種完全創新的模式。
以往一個影片模型生成5-10秒鏡頭,只能用提示詞來“假裝”控制鏡頭運動,但Sora的故事板功能可以精確到創作者需要控制的秒數。以一段10秒的影片為例,創作者可以精確到第2秒、第4秒和第6秒要出現什麼畫面,並填寫需要的提示詞,由此創作者可以在10秒內控制這個影片大致走向。
陳微介紹,對於傳統電影而言,最重要的兩點一是畫面中演員的表演,其次就是場面排程,即鏡頭如何變化。“如果能在10秒內的每個點都寫清楚我需要什麼畫面和鏡頭運動,這一故事板就在某種程度上實現了傳統電影製作中的場面排程功能,實現場景的可控。”
但遺憾的是,陳微提到,Sora目前只擅長透過文生影片完成,而圖生影片效果差強人意,且使用者給出的提示詞,模型不一定會完全遵守。
汗青認為,Sora還值得肯定的一點是生成速度,即便優先積分用完,Sora目前的慢速無限影片生成的時間也並不算慢,“一條約15秒的影片,大約一兩分鐘。”對於汗青這樣的商業創作者來說,這是一個值得付費的點,國內部分平臺最高出現過需要等待超過20分鐘的情況。
“一般使用者可能不會介意快慢的事情,但我們的主要工作是不斷開卡,因此我非常介意開卡的效率。你不能讓我等待太久,時間成本較高,其次,創作想法會被消耗,靈感轉瞬即逝。”汗青說。
還未拉開差距
在眾多影片模型中,創作者們未來會選擇哪些軟體?這一問題,大家目前都還無法回答,海內外的頭部模型產品,創作者們都同時在接觸和嘗試,目前誰也無法確定幾十家模型大廠,最終哪個能取得勝利。
在創作者經常使用的頭部產品中,陳微發現,部分產品在某些細節上能表現得較好,但作為使用者而言,他們無法拉開本質的差距,“原因在於他們使用的底層模型都是DiT或類DiT技術,而細微差別可以透過抽卡來解決”。
目前國內外更新的AI影片模型大部分使用的都是DiT架構,核心問題在於,這一架構下AI無法真正識別物理空間,會導致運動效果有誤差。陳微認為,DiT架構可能會比早期第一代影片模型的運動效果更好,但實際上仍無法理解物理規律,圈內經常討論,如果AI影片需要進一步發展,可能還需要新的技術突破。
倪冰冰告訴第一財經記者,目前基於DiT的方案,透過Scaling law(尺度定律)的思路去提升生成影片的質量,天花板是很明顯的。因為影片空間維度太高,無法做到我們所期望的那種高精度、準確性,也無法精確操控生成過程。
“解決這個問題的辦法還是要建立一個對影片中所有物件例項及其屬性解耦的內容表徵方式,這也可以認為是世界模型框架下的一種實現。在這種非畫素的新表達下,可以訓練高效的與物件和屬性對齊的生成式計算網路,才能從本質上解決精度、可操控性和物理規律正確性的問題。”倪冰冰提到,自己的團隊一直在做新的表徵和計算形式。
在年中Minimax推出海螺影片時,創始人閆俊傑曾對記者表示,做影片模型“這件事還挺難的”。影片的工作複雜度比做文字更難,因為影片的上下文文字天然很長,一個5秒的影片就有幾M。
“挑戰在於,之前基於文字建的這套底層基礎設施怎麼來處理資料,怎麼來清洗資料,以及怎麼來標註。”閆俊傑認為,基礎設施需要升級,其次就是耐心,影片開源內容沒那麼多,需要付出的耐心更大。
過去一年對於AI影片生成來說是一個歷史性的時刻,但未來,影片模型廠家需要解決的問題還有很多。行業判斷,影片生成還處於一個早期階段,類比大語言模型,影片生成還處在GPT-3左右的時代。
在未來,哪些廠商能堅持下來,用什麼樣的技術生態走到最後?誰都不知道。
汗青的一個判斷是,未來的模型市場或許會是百花齊放的,並不會像網際網路大戰那樣,只有少數一兩家能夠留下。他發現,每家模型的“性格”是不同的,就像不同的人有內向、外向,有的可以多講一些,有些人講太多不好,模型也是一樣。
“如果我需要高寫實、高動態時可靈是一個優勢,但當我們製作採訪影片時,不希望機位動作過大,這時它的高動態效果反而是負擔。”汗青認為,不同模型有它所擅長的東西,未來可能創作者不是要甩掉哪一家,而是如何與這些模型共同相處。
微信編輯| 夏木