《投資者網》葉芯
近日,OpenAI的文生影片模型Sora刷屏了。
2月16日,OpenAI在其官網釋出文生影片模型Sora。據介紹,該模型可以生成長達一分鐘的影片,同時保持視覺品質並遵循使用者提示。
作為OpenAI首推的文字轉影片模型,Sora的問世,宣告了新一輪科技革命的到來。Sora驚豔炸裂的效果,衝擊著當前的AI行業。Sora橫空出世後,又將帶來怎樣的變革?資本市場哪些上市公司將受益?
Sora面世
Sora作為OpenAI首推的文字轉影片模型,能夠嚴格根據使用者輸入的提示詞、文字指令或靜態影象,生成長達1分鐘的影片,保持較高的視覺質量,其中包含精細複雜的場景、生動的角色表情以及複雜的鏡頭運動。同時也接受現有影片擴充套件或填補缺失的幀。
OpenAI表示,Sora能夠生成複雜的場景,不僅包括多個角色,還有特定的動作型別,以及對物件和背景的準確細節描繪。除此之外,Sora還可以將靜態影象製作成動畫。文字指令和靜態影象均能生成準確反映使用者提示的影片。
國泰君安研報指出,Sora具有三大突出亮點,一是60秒長影片,Sora可以保持影片主體與背景的高度流暢性與穩定性。二是單影片多角度鏡頭,Sora在一個影片內實現多角度鏡頭,分鏡切換符合邏輯且十分流暢。三是理解真實世界的能力,Sora對於光影反射、運動方式、鏡頭移動等細節處理得十分優秀,極大地提升了真實感。
與目前AI影片賽道同行相比,Sora每條提示60秒的影片長度,遠高於Pika Labs的3秒、Meta Emu Video的4秒和Runway公司Gen-2的18秒的影片時長。
此外,從官方釋出的演示來看,無論從影片流暢度還是細節表現能力上,Sora的效果都相當驚豔。
不過,目前Sora仍在開發中,OpenAI承認該模型可能會混淆提示的空間細節,例如混淆左右,並且難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡。同時,OpenAI還稱,可擴充套件的影片生成模型,是構建物理世界通用模擬器的一條可能的路徑。
Sora的面世,意味著AI影片生成能力實現了跨越式發展。該模型可以深度模擬真實物理世界,標誌著人工智慧在理解真實世界場景並與之互動的能力方面實現了重大飛躍。
應用前景廣闊
近年來,OpenAI領跑AI賽道。2021年初和2022年末,OpenAI分別推出了影象生成系統DALL·E和聊天機器人ChatGPT。這也使得AI逐漸成為各行各業輔助工作的工具,也正逐漸改變人們對未來工作的看法。
如今,Sora模型能夠生成一分鐘的高保真影片。影片格式既可以是橫屏1920*1080影片,豎屏1080*1920影片,以及之間的所有內容。這使得Sora可以相容不同的影片播放裝置,根據特定的縱橫比來生成影片內容,這也會大大影響影片創作領域,包括電影製作、電視內容、自媒體等。
國盛證券認為,文生影片大模型Sora橫空出世,其能夠理解並呈現物理定律,影視動畫行業的顛覆性時刻到來。
據介紹,Sora是基於過去對DALL·E和GPT的研究基礎構建,利用DALL·E 3的重述提示詞技術,為視覺模型訓練資料生成高描述性的標註,因此模型能更好的遵循文字指令。
對此,360集團創始人周鴻禕表示,Sora的技術思路完全不一樣。之前我們做影片做圖用的都是Diffusion,是多個真實圖片的組合,這次OpenAI利用它的大語言模型優勢,把LLM和Diffusion結合起來訓練,讓Sora實現了對現實世界的理解和對世界的模擬兩層能力,這樣產生的影片才是真實的,才能跳出2D的範圍模擬真實的物理世界。
“這都是大模型的功勞。OpenAI訓練這個模型應該會閱讀大量影片。一幅圖勝過千言萬語,而影片傳遞的資訊量又遠遠超過一幅圖,這就離AGI(通用人工智慧)不遠了,不是10年20年的問題,可能一兩年很快就可以實現。”周鴻禕稱。
周鴻禕表示,這也代表未來的方向。有強勁的大模型做底子,基於對人類語言的理解,對人類知識和世界模型的瞭解,再疊加很多其他的技術,就可以創造各個領域的超級工具,比如生物醫學、蛋白質和基因研究,包括物理、化學、數學的學科研究上,大模型都會發揮作用。這次Sora對物理世界的模擬,至少將會對機器人具身智慧和自動駕駛帶來巨大的影響。
國盛證券也持有相同的觀點。其認為文生影片大模型Sora橫空出世,其能夠理解並呈現物理定律,影視動畫行業的顛覆性時刻到來。
對於Sora的面世,工信部資訊通訊經濟專家委員會委員、數字經濟專家劉興亮稱,這標誌著AI技術在內容創作領域的一個新紀元。
“Sora能夠生成持續一分鐘左右的1080P高畫質影片,涵蓋多個角色、不同型別的動作和背景細節等,幾乎達到了電影級別的逼真場景。這種能力不僅為內容創作者提供了前所未有的工具,使他們能夠以更低的成本和更快的速度將創意變為現實,而且為觀眾帶來了更豐富和多樣化的視覺體驗。技術創新的這一巨大飛躍,預示著AI在未來人類生活的各個方面都將發揮更加重要的作用。”劉興亮表示。
AI基礎設施需求旺盛
市場觀點認為,2022年是影像之年,2023是聲波之年,而2024是影片之年。
OpenAI表示,Sora是構建世界模型的基礎,未來將向實現AGI繼續邁進。
對於Sora的發展,算力需求旺盛。指出,Sora模型推動AI多模態領域飛躍式發展,AI創作等相關領域將迎來深度變革,AI賦能範圍進一步擴大,多模態相關的訓練及推理應用也將進一步提升對算力基礎設施的相關需求。
無獨有偶,國盛證券也持有相同的觀點,其認為,Sora依舊符合AI縮尺律(Scaling Law)OpenAI在技術文件中說明,隨著訓練計算量的增加,樣本質量明顯提高,進一步佐證了多模態時代,算力需求將成為最核心的瓶頸之一。
多模態大模型拉動全球算力需求快速增長,國產AI算力迎來機會。根據南方財富網趨勢選股系統資料統計,A股國產AI算力相關上市企業目前數量有52家,如國產AI算力產業鏈包含AI伺服器零部件、伺服器整機、算力租賃、資料中心等環節。AI伺服器零部件公司主要包括海光資訊、寒武紀、龍芯中科、景嘉微等;伺服器整機公司主要包括高新發展、神州數位、拓維資訊、廣電運通、烽火通訊、同方股份等;算力租賃公司主要包括恆潤股份、雲賽智聯、鴻博股份等;資料中心公司主要包括奧飛資料、光環新網、寶信軟體、資料港等。
此外,多家巨頭謀劃佈局AI基礎設施。舉例來看,主營影片創意、繪圖創意類軟體產品的萬興科技近日在互動平臺表示,公司旗下影片創意產品萬興喵影/Filmora可用於各類影片的創作和剪輯,“天幕”大模型是以影片創意類AI技術為核心的多媒體大模型,涵蓋音訊、影象、影片等多模態能力。
崑崙萬維旗下Star Group和Opera都具備做短影片的土壤,其中Opera在海外已經推出了短影片功能。此外,崑崙萬維天工大模型在騰訊優圖實驗室聯合廈門大學開展的多模態大語言模型測評中,綜合得分排名第一。
專業智慧影片解決方案與影片雲服務提供商當虹科技擁有自研的AIGC工具集,於去年上半年釋出以靜態照片生成三維體積影片的方案。
當虹科技1月5日互動平臺表示,公司擁有自研的AIGC工具集,釋出了以靜態照片生成三維體積影片的方案,並且透過點雲模型轉換及壓縮演算法實現高達800倍的視覺無失真壓縮,實現不同模態之間相互切換。
因賽集團旗下InsightGPT目前可生成20秒以上的影片,能夠結合影象、影片大模型,融合摳圖等多種演算法,再結合音訊模型,整體渲染後最終合成完整影片。
據不完全統計,包括萬興科技、博彙科技、易點天下、數位視訊、漢王科技、當虹科技、東方國信、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在內的超10家A股上市公司近三個月以來在互動平臺披露影片生成模型領域的業務情況。(思維財經出品)■
OpenAI