出品|科技《態度》欄目
採訪|丁廣勝、崔玉賢、閆妍
整理|普子胥
一位女士,在東京街頭高傲行走。神態逼真、動作流暢。
繼2023年GPT大火後,一則時長60S、卻遠超以往同類型時長的影片,正由OpenAI釋出Sora文生影片模型推出,再次踩踏出了業界的震撼、遲疑、興奮、甚至沉默...
sora的橫空出世,是警鐘還是機會?是發令槍,還是倒計時?為此,網易科技深入一線,去追問十餘位中國人工智慧領域的專家、企業家、影視從業者等,就sora的種種話題進行全面盤析。以下為網易科技對AI領域十餘位專家、企業家採訪節錄:
一、Sora為何帶來如此巨大的影響力
網易科技:文生影片不新鮮,但當下業界還是驚歎sora能力,大家驚歎核心點是什麼?sora為何受到如此關注?
360公司創始人、董事長兼CEO周鴻禕:我認為真正驚歎的是,大家覺得它真實。sora做的影片,比較符合我們對世界的認知,和這個世界的運轉規律和世界背後的一些物理定律,以及我們觀察世界得來的常識都是一致的。
中國人民大學高瓴人工智慧學院教授盧志武:驚歎的核心點在於Sora長影片生成能力,在內容連貫性和物理世界的模擬上均表現出色。
香港大學教授、徐圖智慧CEO徐東:先前Pika CEO郭文景說文生影片來到了ChatGPT2.0時代。根據Pika當時生成影片的結果,我只敢說是初現曙光。Sora出來,雖然它還有很多不完美的地方,但是證明這個賽道進展非常快,而且離實用的距離比我們想象中要小。總體來講,我當時還是有點保守了。
Sora能生成60秒時長的影片,但還是有人不太相信能一鍵生成60秒。例如,女子在東京街道上影片,比較驚豔是特寫的鏡頭,但影片中人在街道行走的部分,不一定是一次生成,也有人猜測有可能是幾段合起來的。不過,Sora的技術能夠解決當不同視角切換情況下如何保持生成內容一致性的問題,並且對人物特寫很自然,這確實比較驚豔。 此外,sora對比Pika就是前進了一大步。繼2022年OpenAI釋出ChatGPT後,這次Sora釋出又是一個新的breakthrough,或者說是新的ChatGPT時刻。文生影片通常被認為是一個比ChatGPT更難的一個任務,因為全世界文字是有限的,排列組合能算出來總數的,不管是多麼大的一個天文數字。從影片空間的角度來說,如果到了一個小時,一天或更長時間的影片,影片空間是一個人們根本不可想象的龐大解空間,比ChatGPT這個任務的解空間大很多倍,完全不在一個數量級。
哈爾濱工業大學計算學部教授左旺孟:與之前文生影片模型相比,Sora在生成的影片長度、影片質量和與物理世界的一致性方面都有顯著進步。在一定程度上,Sora可以說是向世界模型邁出了重要一步。
南京大學智慧科學與技術學院副教授、博士生導師易子立:對大多數人說,他們感興趣的主要原因是效果好,相比之前產品效果上提升了一大截。一是,影片時長從幾秒延長到了60秒,真正意義上實現了影片生成,而非短暫的定格動畫或者動效生成。二是,生成的結果非常逼真,具有複雜的場景和豐富的細節。
我感興趣的主要原因是,技術路線上迴歸到了transformer路線,開啟了視覺和大語言模型“大統一”的時代,可能為將來的多模態基礎模型和世界模型指明瞭技術方向。
商湯科技智慧產業研究院院長田豐:從產品級來說,sora是走向AGI路上的一小步,大眾期望中的“一大步”。一是,高維變低維,複雜變簡單。OpenAI的工程化體現,文章變為token,影片變為patch(含影片幀間的語義描述與關係)。
二是,從“高頻視角”到“自由視角”。因為訓練時影片限制寬泛,生成影片可選擇持續時間、解析度、寬高比(構圖、取景),不論橫屏、豎屏,畫幅大小,總有一款適合終端裝置(豎屏手機、橫屏電腦/車機屏、寬畫幅AR眼鏡等),隨著模型迭代,總有一天能生成全景影片,當然伴隨更多的模擬細節、和模擬錯誤——影視行業,多版本電影的生成,不同鏡頭語言的敘事方法,每個“虛擬機器位”都是你挑選的不同演員“主角視角”。
三是,影片-文字補足:網際網路上不缺影片,但缺少影片的詳細文字描述,所以透過Dall-E 3中的影片高質量解說文字功能,為所有影片重新生成了大量精細化描述。
四是,MoE架構。Sora不是一個模型在戰鬥:圖畫是單張影片,影片是連續的圖片。Dall-E 雖然不如Midjourney,但文生圖模型保持物體穩定性要靠Lora小模型的單獨訓練,而Sora能在不同鏡頭中保持人物、物體的外觀一致性——Sora可能會把更多使用者搶走,影片AIGV工具對AI繪畫工具的降維覆蓋。
五是,兩幀之間皆是留白:《洛杉磯纜車》的影片顯示,AIGV生成影片,能以“上帝視角”製作影視短劇,可以控制影片時間方向、流速、植入場景與物體,不僅是擴充套件畫面、換鏡頭視角,更會改變兩個關鍵鏡頭之間的微場景、微劇情走向,但保證“殊途同歸”,下一代導演面臨“無限選擇”的拍攝過程,“無限創意+無限剪輯”。
六是,生成智慧,帶來電影工程化:開源/開放電影共享“影片大綱”,魔法混剪,個人版創意電影,隨心所欲——紅色的車換場景/換車(下水道/森林等)影片顯示,開源電影(基礎模型)會出現,影片混合、融合電影等“電影魔法時代”到來——一部經典電影、創意電影,就會為其他電影製片方提供“基礎運動軌跡”,展現更多向經典致敬的橋段。
美圖公司技術副總裁兼美圖影像研究院負責人劉洛麒:文生影片的門檻比文生圖高很多,之前的文生影片模型只能關注特定型別的視覺資料或是較短、固定尺寸的影片,在資料質量、算力、多融合技術等方面都還有很多需要突破的關卡。 而Sora是通用視覺資料模型,在生成質量、時長、生成方式等方面重新定義了AI影片生成模型的標準,尤其是在60秒超長影片生成上的重大突破。透過Spacetime Patch,Sora能夠生成逼真且還原現實世界物理規律的影片,包括真實世界和數字世界。
可以看到Sora展示了“湧現的模擬能力”,這也是機器模擬真實世界的一個重要里程碑。 除了顯著的表現能力之外,更關鍵的還在於Sora帶來的技術和商業革命,以及引發的產業機會,包括對影視、廣告、遊戲、短影片等生產力領域的變革。
網易科技:文生影片模型應用公司有Runway、Pika等,先前他們已經斬獲相關客戶,sora的出現會在多大程度上影響整個生態格局?
360公司創始人、董事長兼CEO周鴻禕:Sora會帶來整個產業巨大的進步。Sora出來後,大家都覺得Sora比Pika、Runway要強很多,這很正常。Sora看起來是個文生影片的工具,但實際上是AGI(通用人工智慧)的第二個突破點,是解決人工智慧對這個世界的觀察、互動、認知,以及建立常識的重要里程碑。在此基礎上,人類可以創造各個領域的超級工具。例如:在自動駕駛、生物醫學、蛋白質、基因研究,包括物理、化學、數學的學科研究上,大模型都會發揮作用。
香港大學教授、徐圖智慧CEO徐東:Runway和Pika現在當然很緊張。他們是創業公司,不管從人力資源、算力資源、融資能力、使用者數量等相對OpenAi都不是一個數量級。Sora出現後,他們壓力是巨大的。反而在國內市場,可能不少人會覺得Sora會有國產版,這反而倒是一個機會。
哈爾濱工業大學計算學部教授左旺孟:Sora的出現對文生影片的生態格局有很大的影響。不過其他公司仍有很多機會。一方面可以結合每個公司的垂直領域應用需求,例如,位元組可以結合抖音短影片需求做出自己的特色。另一方面,基於影片生成的世界模型作為一個概念,本來也不是OpenAI最先提出來的:Runway在去年12月份就宣佈要開發通用世界模型來解決AI影片生成問題。在世界模型的具體實現方式,僅僅依靠基於機率統計的相關性建模能否精確學習和表達物理規律,既不是唯一的方式,也未必是正確的方式。所以,也不排除其他公司仍有重新超越的機會。
新壹科技CEO雷濤:一是技術競爭壓力加劇,市場會加速優勝劣汰。Sora問世意味著AI影片生成技術領域的重大突破。國內過去一年來,AIGC行業經歷了百模大戰後,亟待需要集合自身優勢,更加專注垂直場景落地,滿足不同領域和場景需求,方能為自身博得一席之地;
二是,市場份額重新分配,隨之而來的商業模式和盈利期待也會更具象:Sora的誕生,無疑會對AI影片生成市場重新洗牌。就國內而言,要看哪些企業能結合、利用新技術,完善符合國情的產品,比如提供定製化的影片生成服務、跨業態合作;那麼有了這樣一款或幾款爆款“產品”,行業探索新商業模式、變現盈利的路徑也會變得更明晰。
南京大學智慧科學與技術學院副教授、博士生導師易子立:要看OpenAI的算力能否支撐得起文生影片的生態,目前OpenAI的主要產品(包括GPT3.5/GPT4,dalle,whisper,TTS等)都用較嚴格的用量限制,這些都嚴重影響了生態的發展。文生影片有可能比上述模型更加消耗算力,對於OpenAI的算力基礎設施是一個巨大的考驗。當然,OpenAI可以選擇和微軟合作,利用微軟的算力驅動自己的產品,在一定程度上能緩解算力不足的問題。
另外,就是OpenAI的工作重點是否會放在創作工具上,也是一個問號。Dalle3 為啥沒有太多影響到MJ,並不是因為Dalle3技術落後,是因為Dalle3出的圖大多數看起來風格化過重,不像真實的,不符合大多數設計師的需求。但OpenAI似乎也沒有把工作中心放在如何改善Dalle3的效果,讓出圖風格更接近市場需求,因此沒怎麼影響到MJ的市場。OpenAI是一個有著更大格局的公司,我覺得它的目標是AGI,是世界模型,是一切AI的基礎模型,而不是一個簡單的圖片/影片創作工具。
網易科技:對sora這樣的複雜AI系統,有人認為人才第一、資料第二、算力第三,其他都是可替代的,如何理解這樣的論斷,您怎麼看OpenAI的實力和戰略目標?
中國人民大學高瓴人工智慧學院教授盧志武:認同這一觀點,關鍵的模型設計和工程化技術確實是由一流人才決定的,同時資料和算力也是不可或缺的。
360公司創始人、董事長兼CEO周鴻禕:科技競爭最終比拼的是人才密度和深厚積累。和很多創業者團隊比,OpenAl這種有核心技術的公司實力是非常強勁的。OpenAI也不缺顯示卡,最近Altman說準備7萬億美元做新的算力架構,說明他們對算力的需求,可能超出我們每個人的想象。
我認為,其實Sora的很多東西都沒有公佈。Altman是個營銷大師,他知道到哪一步做什麼,能調動使用者與觀眾的關注。但真正訣竅他們是絕對不會說的。
香港大學教授、徐圖智慧CEO徐東:人才肯定是第一位。我認為,在aigc時代,不是要搞大團隊,而且是要小而精的團隊。Sora團隊成員都非常年輕。為什麼人才要年輕化? AI現在已經從AI1.0時代變成AI2.0時代了。AI1.0時代是感知,AI2.0時代是生成人工智慧。這個時代的變化要求研究人員要有很強的學習能力,AI2.0時代是需要重新洗牌的,AI2.0時代的有些技術比如Transformer可能大家都聽過,但是AI1.0時代的不少人畢竟沒真正訓練過大模型。 所以,為什麼是新的人來領領軍?因為人家是從AI2.0時代成長起來,人家摸的時間比你長,經驗比你多。這方面,國內人才相對國外就更缺了。因此,研究上人才肯定是最重要的,而且是要懂AI2.0的人才。我2022年加入香港大學後,我們整個團隊all in 擴散模型(diffusion model),團隊積累了不少的經驗包括在影片AI領域的經驗。當然,資料跟算力也很重要。想出思路和解決辦法,但是你沒有算力或者沒有資料支援,那只是想法而已。 至於怎麼看OpenAI。進入Generative AI時代,現在就是OpenAI and others。OpenAI不僅在語言模型上領先,在文生影片這個領域也是遙遙領先。
哈爾濱工業大學計算學部教授左旺孟:不同於文生影象或語言大模型,文生影片有其自身的特殊性。文生影象的訓練集如LAION-5B包含了58.5 億個文字-影象對。與文生影象相比,文生影片更加複雜,原則上需要有更多的文字-影片對。然而,由於現實世界中影片的數量遠遠少於影象,高質量影片數量更少,並且網際網路上影片的完整文字描述也更少。這些使得文生影片會更依賴開發人員的演算法設計和程式碼實現,所以才會說人才第一。其次,能蒐集到的資料顯然是越多越好,最後才是一定的算力和反覆的迭代開發。
新壹科技CEO雷濤:如果把AI系統類比成一個人體的話,那麼人才相當於大腦,資料可以看作是血液迴圈,算力可以視為骨骼和肌肉,確實是比較核心的部分;不過,還有很多其它要素不能被忽視【人體的其它器官】,像演算法的選擇、模型的設計、系統的架構等都對AI系統性能有直接影響。
從Chatgpt和Sora這兩個產品來看,OpenAI的目標是創造出通用人工智慧AGI(Artificial General Intelligence),相對於實驗室人工智慧而言。如果AGI路徑照進現實,那麼資源的豐富度、人類能力邊界都將得到拓展,意味著又一次生產力革命。
二、中國的AI玩家應該如何趕超和應對
網易科技:sora橫空出世,國內大模型企業該如何見招拆招?我們與大洋彼岸的差距有多遠?
崑崙萬維董事長兼CEO方漢:Sora具有三維空間的連貫性、模擬數字世界、長期連續性和物體永續性、與世界互動的技術特點,是文生影片領域特別大的進步和突破,領先國內同行半年左右,對影視、影片、廣告等行業有很大的衝擊,但在理解層面沒有特別大的突破,不能誇大Sora在通用人工智慧方面的進步。國內廠商和國外廠商在文生影片的差距,不像大模型領域的差距那麼大,Sora的釋出會進一步加速國內廠商在該領域的投入。
中國人民大學高瓴人工智慧學院教授盧志武:Sora也是一個通用的底座模型,與ChatGPT同等重要。國內企業需要重視多模態方向上的人才和資料積累,才有可能追趕上Sora。與國外的差距在0.5-1年之間。
360公司創始人、董事長兼CEO周鴻禕:Sora給了中國的網際網路和人工智慧行業一個響亮的提醒,承認差距並不丟人,知道差距在哪兒,我們迎頭趕上。現在國內也不用太悲觀,有些技術訣竅,我覺得很快地也都會被探索出來,剩下的需要時間。
國內比較值得關注有三點:第一,人才的高度和密度;第二,算力,做Sora和下一步更大規模的大模型對算力的要求可能又是一個積累,10萬塊顯示卡是個基本起點;第三,知識的問題,網上的很多語料並不適合用來做直接的訓練,訓練大模型需要的是高純度的知識。
香港大學教授、徐圖智慧CEO徐東:現在語言大模型公司也在往多模態大模型方向發展,可能也有人認為他們能做Sora。但我覺得這事比語言模型更難,影片生成模型的解空間比語言的解空間還是大不少的。另外先前GPT是有開源的,是基於純Transformer路線的。這一次OpenAI的技術報告基本沒有太多細節,從大的方面來講,基於diffusion框架,sora採用了transformer來取代之前演算法中的UNet結構以逐步實現去除噪聲並生成影片,即所謂的diffusion transformer技術路線。簡單來講,這個技術路線本質是diffusion路線而不是語言大模型公司所採用的純Transformer路線。其實diffusion框架有一套非常嚴格的數學理論保證,在算力和資料有限的情況下,這肯定是初創公司的首選。和Sora類似技術路線相似的論文很少,我香港大學一個同事羅平教授去年一直在採用diffusion transformer這條技術路線,先是做了一個文生圖的論文(中了ICLR 2024,模型已經開源),去年11月又投了一個文生影片的論文到CVPR 2024。這篇投稿CVPR 2024的論文應該是我見到的所有文生影片論文中從技術路線上來講最接近sora技術路線的工作。
另外,訓練sora所採用的資料也沒有開源,當然也沒有提供任何關於資料收集方面的細節,另外現在也沒有太多其它公開的資料集,這和語言大模型這個賽道剛開始的時候非常不一樣。所以,現在雙方的差距是明顯被拉大了。要在幾個月之內就能超過Sora,應該不是一件非常容易的事。
北京大學人工智慧博士、斯坦福創業導師張有魚:在ChatGPT 3.5釋出之前,國內還是有研究產品以及積累的,GPT2的原始碼是公開的,GPT3的原始碼國內個別單位也有。所以綜合下來在追趕GPT過程中,國內廠商還是有底氣的,所以23年下半年,基本隔幾天就會公佈宣佈在XX地方超越了GPT4。
但這次SORA突然釋出後,除了360周鴻禕之外,基本都保持沉默,可能這一次過於突然。SORA出現當天,我就開始和6位影視、動畫、網際網路、大模型相關領域的專家在影片號直播開始探討。在過去一週時間每晚一場討論,大概有近30位嘉賓,但於對於這個問題,總體也是諱莫如深。但是從投資和產業界來看,一些之前這方面賽道的小公司可能會迎來一個被併購的機會。有網友笑話說,現在全村人都盼著Meta趕緊殺進來,只要它一開源,國內就能在應用上跟進。
網易科技:文生圖、文生影片等想象空間巨大,對於創業者、尤其是中國創業者,您認為機會在哪些地方?專注什麼垂直領域成功的機率相對較大?
香港大學教授、徐圖智慧CEO徐東:現在很多風投找到我,有人悲觀,表示Sora太厲害,我們差距太大。但從另外一個角度講,從國家戰略來說,很多情況下是不可能採用Sora的。另外還有很多的企業,比如有些遊戲公司未必願意採用Sora,所以一定需要一箇中國版的sora。
對國家來講,也可能存在國家安全的問題。如果有人掌握了這個工具,就有可能會產生大量的生成影片,自動區分真實以及合成影片現在還是一個非常困難的任務。另外這些生成影片在價值觀和道德觀上有可能和我們主流的觀點並不一致。如果國內完全不懂OpenAI是怎麼進攻的,那我們怎麼去防?所以說國家肯定會有政府資源投入做這個事。 而從創業的角度來說,我個人是看好的,也有不少風投也是很看好的,因為中國還是會有一箇中國版Sora出來,只是說誰能做出來而已。先前中國可能有200多個GPT模型,但是我估計國內不會有這麼多團隊來做類似Sora的模型,因為這個賽道門檻特別高且開源資源缺乏,只有有很強技術積累的團隊才可能來做類似Sora的模型。
新壹科技CEO雷濤:我認為以下幾個層面潛在需求會比較集中。1.本地化內容生成:通用大模型的成熟和標杆性應用的湧現,會進一步激發能快速生成高質量、本地化的內容需求。諸如,為特定地區或文化生成符合其背景和習慣的文字、影象或影片內容。 2.垂直化行業應用:經過特別化訓練和底層設計的垂直大模型可滲透於各垂直行業,像醫療、教育、金融、融媒體等。新壹影片大模型和旗下的內容輔助創作平臺,已經與金融保險、融媒體、醫療機構,有了很深入的合作溝通,甚至是實踐案例。 3.個性化影片定製: Sora的文字到影片生成能力進一步降低了個性化影片定製門檻。像企業宣傳片、教育培訓、微短劇,甚至個人娛樂領域,使用者都可以根據自身需求,透過文字描述進行影片內容DIY。 4.輔助創作的工具化平臺:從外來的ChatGpt、Sora,到國內使用者接觸、熟悉普及,時間和資訊度都存在一定門檻,那麼提供易於使用者使用的工具化平臺,透過降低技術門檻,使普通使用者也能感受到尖端技術帶來的福利,更輕鬆便捷的進行創作,也是一種定位路徑。新壹科技旗下的一幀秒創平臺,就致力於此。 5.與其他技術結合的延展邊界:通用人工智慧、AIGC技術的迭代和升級,以Sora的影片生成技術突破為例,這讓其與其他技術如增強現實(AR)、虛擬實境(VR)等結合,能創造出更豐富多樣的內容形式,投身到影視、大銀幕製作中,更加具有想象空間。
360公司創始人、董事長兼CEO周鴻禕:創業要廣義地來看。在機會方向上,我提兩個:第一,我認為未來會產生很多新的工具,人工智慧最典型的屬性就是工具,所以工具市場會有巨大的機會。創業者如果可以接入Sora、GPT大模型API,可以利用它的能力,產生素材,創業者要做的是把你的能力和它結合起來。
第二,對很多傳統To C領域可能會有重塑一遍的機會。創業者可以走把大模型垂直化、產業化、行業化發展的路,做各種企業大模型、場景大模型。 北京大學人工智慧博士,斯坦福創業導師張有魚:我們回看歷史,可以得出幾個顯而易見的結論:每一次內容創作門檻的降低,都會帶來內容更大的爆發。部落格時代(千字長文)——微博時代(70字簡訊)——圖文時代(隨手拍照)——短影片和直播時代。文字圖片電影電視影片,都是為了資訊傳遞、文化傳播、娛樂消遣服務,所以也必將帶來影片生產的大爆發。
三、Sora影響最大的人群是誰?
網易科技:此前,GPT壓力給到了編劇,現在,sora的壓力傳導給了後期和特效?怎麼看未來相關從業者的可替代性?
360公司創始人、董事長兼CEO周鴻禕:今天Sora可能給廣告業、電影預告片、短影片行業帶來巨大的顛覆。機器能生產一個好影片,但影片的主題、指令碼和分鏡頭策劃、臺詞的配合,都需要人的創意,至少需要人給提示詞。我認為,人工智慧取代不了人類的想象力和創造力,還有人類的主觀意願。所以,我認為Sora更可能成為後期和特效等相關從業者的創作工具。
南京大學智慧科學與技術學院副教授、博士生導師易子立:目前說Sora替代導演編劇還為時尚早。Sora可以產生不錯的影片,但能否以更低成本產生符合製作人需求的內容,還是個問號。從目前Sora的缺點來看,還沒有到大規模替代攝像和圖形學的地步。根據我之前的預測,還需要至少等全球算力水平再提升1~2個數量級,也就是大機率在4~5年之後,甚至更長時間。
美圖公司技術副總裁兼美圖影像研究院負責人劉洛麒:以史為鑑,新技術的出現並非要取代人類的工作,每一次生產工具的升級帶來的是生產力的提升。
Sora、GPT、Mid journey等產品的本質都是生產工具。作為AI輔助工具,更多的是賦能創作者而非替代,包括幫助普通人降低生產門檻,為專業生產者降低生產成本,加速內容生成,提高創意實現的生產效率,幫助減少內容生產者的“工具屬性”,釋放創意發揮的空間。與此同時,AI也會創造出新的工作和新的可能性。影視和影片產業的靈魂是情感、世界觀、文化等等的碰撞與共鳴,高度依賴創新創意、情感投入和人類敘事,這也是AI不可替代的地方。
北京電影學院動畫學院教授、影視投資人孫立:Sora一出,ADOBE、迪士尼,奈飛股價馬上下跌。影片的生產,特別是複雜特效影片的生產不再是資本和資源集中後的優勢專案,不再是稀缺資源。利用sora ,1個高中生設計的出的星球大戰場面可能比喬治盧卡斯製作的同類畫面更新穎,更吸引人。
網易科技:Sora的出現會衝擊哪些教育機構和培訓機構?
北京電影學院動畫學院教授、影視投資人孫立:教育的權威性受到衝擊。今後影視製作從業的專業技能需求要重新定義。靜態畫面方面已經很明顯了,中央美院2023年報考人數斷崖式下降了8000人。
網易科技:sora的弱點有哪些?它有哪些不足或者值得擔憂的地方?
中國人民大學高瓴人工智慧學院教授盧志武:Sora目前的弱點只是暫時的,透過模型最佳化和採用更大的資料訓練肯定可以解決。
哈爾濱工業大學計算學部教授左旺孟:Sora號稱是作為世界模擬器的影片生成模型,但實際上仍主要是依靠基於機率統計的相關性建模來學習物理規律,目前還難以模擬所有現實中的物理過程。從長期來看,也許需要突破當前的學習正規化,發展新的模型和學習方法。
北京電影學院動畫學院教授、影視投資人孫立:sora的開發,完全脫離了我們視野範圍。我在此之前沒有看到任何行業論文預判到了它的升級路徑。當然,它目前很顯然代替不了張藝謀和王家衛。它還無法和我們共情,僅僅是完成我們的指令。不過都到這一步了,誰敢給它今後的發展設限?
360公司創始人、董事長兼CEO周鴻禕:從負面來說,如果有了Sora之後,人類消耗大量的算力和能源,我們每個人每天都在瘋狂產生影片,你根本就沒有時間來回看。它甚至都超過一個宇宙的壽命了,那誰去看呢?所以,我也覺得挺迷茫的。
還有一個問題,詐騙影片。過去詐騙影片叫Deepfake深度偽造,過了幾年他們換了一個高大上的名字叫AIGC。今天AIGC做詐騙還只是換臉換身,以後完全不用換臉。所以一定要有相應的監管措施。
四、人類關於AGI的實現時間,縮短了多少?
網易科技:Sora的誕生意味著AGI(通用人工智慧)實現可能從十年縮短至一兩年?如何看待AGI的發展和sora給AGI演變程序帶來的影響?
360公司創始人、董事長兼CEO周鴻禕:Sora的出現,意味著 AGI實現將從10年縮短到一兩年。 我認為,AGI發展有幾個階段:第一階段:人工智障,連人類的語言都不理解。 第二階段:是人工智慧拐點,有腦子,能跟人的互動能力。GPT已經做的很好,核心就是語言、思想、邏輯層面的互動。 第三階段:就是通用人工智慧(AGI)階段,從識別物體和識別物體之間的邏輯關係(Gemini),進化到能夠識別物體跟物體之間互動和互動關係,並且建立對透視的理解(Sora)。進而能夠在具身智慧、自動駕駛方面取得突破。
所以,Sora正好補上了這一塊,就是透過對世界觀察後理解一些執行規律,再附到機器人身上,他就已經會有很大的改善。瞭解這個執行規律,比如太陽東昇西落,並不等於就把伽利略公式就做出來了,所以這裡面還沒有到公式這一步。所以不要拿這個來苛求。
第四階段:有手有腳,強人工智慧時期。AI能夠附體在一個車上、一個機器人身上,能夠走出去,伸出手去感知這個世界,去感知重力加速度,去感知阻力,去感知抵抗力,如果做到這一點,AI和人類對世界的認知就完全一樣了。 第五階段:是有悟性,超級人工智慧時期。從現象中總結出物理定律和數學公式,實現對世界的抽象理解。
哈爾濱工業大學計算學部教授左旺孟:資料對AI和AGI的發展仍起著至關重要的作用,Sora可以透過生成資料對AI和AGI起到一定的推動作用,但不會這麼顯著地縮短AGI的實現時間。
新壹科技CEO雷濤:Sora的誕生肯定是給AGI(通用人工智慧)注入強心劑,代表AGI在影片生成領域的突破。不過,AGI的實現是複雜漫長的過程,需要面對很多技術挑戰,諸如說跨領域靈活性、常識推理、情感理解等等。將Sora的影響簡單歸結為縮短AGI實現時間,可能過於樂觀。
Sora的問世,更多的意義在於,證明了大型語言模型在影片生成領域的潛力,拓展了AGI的發展路徑。
南京大學智慧科學與技術學院副教授、博士生導師易子立:多模態基礎模型是通往AGI的必經之路,而視覺(特別是影片)和自然語言的統一是多模態基礎模型的必經之路。目前的科技進展,只能說讓我們離AGI又近了一步,但我們距離AGI的終極目標依然很遙遠。要攻克AGI,還有很多問題要解決,包括多模態基礎模型、長期記憶、終身學習、自省學習、常識推理等。
北京大學人工智慧博士,斯坦福創業導師張有魚:那一天的起點,還是在於LLM大語言模型,LLM解決了最難的語言理解的問題,是世界知識的壓縮。而SORA在此基礎上,從視覺角度進一步理解了物理世界,僅僅透過影片現象的學習,就可以理解了物理世界,這一天來得如此迅速,而整個社會還沒有完全準備好。
如果說之前所有新的技術或產品出現,普及和應用是有一個比較長的過程。但今天一個大模型的釋出,無論是矽谷最前沿的,還是一個遠在非洲的偏遠地區的人,拿到的東西是一樣的,而且還是強大無比的生產力工具,唯一限制你的,只是你的想象力。這是人類歷史上從來沒有過的。
所以無論是從個人,企業,政策,社會,國家等多個層面都需要同步面對這個變化甚至衝擊,這個過程中難免會產生諸多的問題,如這幾天發生的賣課的亂相。但這個技術潮流無法避免,那就需要更多的力量共同來面對。這個挑戰我們無法失敗,也沒有人失敗得起。
網易科技:文生影片模型從生成影片開始,但絕不會從影片這裡結束。在未來,您比較看好哪些相關什麼應用和創新嘗試?
新壹科技CEO雷濤:比較典型的場景像影視製作與後期處理、虛擬形象與虛擬人【主要用於遊戲、社交、廣告】領域;教育培訓行業【類似虛擬實現、模擬演示】,還有藝術創意設計這方面,文生影片模型可以帶來創意靈感。
美圖公司技術副總裁兼美圖影像研究院負責人劉洛麒:人工智慧作為一種基礎的科技,隨著進一步的深入發展,相信對各個工種,各個行業都會有或深或淺的影響。結合現有業態,我們也比較看好在電商、廣告、遊戲、動漫、影視等視覺創作場景的率先發力。
網易科技:人工智慧從生成文字到圖片再到如今的影片,您覺得sora們是終極形態嗎?如果用一句話展望人類的人工智慧發展事業,您會說什麼?
中國人民大學高瓴人工智慧學院教授盧志武:Sora最吸引人的地方是對物理世界的模擬,AI可以透過觀看影片來自動抽取物理規律,這相當於物理學家的角色,後續的想象空間非常大。
香港大學教授、徐圖智慧CEO徐東:10年前大家覺得通用人工智慧的時代遲早會來,但現在我們應該全體all in人工智慧,全人類都應該積極的去擁抱人工智慧,因為通用人工智慧時代即將到來。當然,監管也要同步跟上。
哈爾濱工業大學計算學部教授左旺孟:GPT和Sora應該還不能算是人工智慧的終極形態,一個完整的AI系統還應該具備更好的感知和互動能力。我希望未來的人工智慧能夠跟人類共存,一方面為人類的衣食住行和生活生存提供便利和保障,另一方面為人類的理解、探索和創造活動提供支援。
松應科技創始人&CEO聶凱旋:今天看到的sora還遠不是終極形態,sora模型只是看世界的其中一種角度,他透過視覺觀察 + 模仿,利用計算機繪製出感官上連貫且逼真的二維畫面,但其並不理解物理規律和邏輯,也沒有因果關係。不過OpenAI運用GPT+Sora組合,代表了一種看世界的新方式。
人工智慧要落地物理世界並引領產業升級,則需要構建一個理解且基於物理定律、高精度運算的三維模擬模擬器,讓其作為AI人工智慧與物理世界生產系統融合的載體,例如在交通運輸、工業製造、移動機器人、醫療機器人、工程建築等領域。我們看到目前最接近三維世界模擬器的是全球晶片巨頭NVIDIA的Omniverse平臺,國內則有松應科技ORCA智慧模擬平臺也在迎頭趕上。
通往全人工智慧的道路不止一條,無論是基於認知資料的模型,還是基於物理規律的模型,都是積極探索和推動發展的進化方式,都值得深度投入和廣泛實踐。
美圖公司技術副總裁兼美圖影像研究院負責人劉洛麒:Sora不會是最終形態,儘管目前它的效果非常驚豔,但在物理邏輯、敘事風格與視覺風格統一、區域性細節、轉場協調和連貫性等方面都還有很大的最佳化空間,整體還是一個漸進性的發展形態,技術快速迭代的背景下,我們也期待一個革命性時刻的到來。
南京大學智慧科學與技術學院副教授、博士生導師易子立:我們目前只是踏出了萬里長征的第一步,我們距離終極AGI還很遙遠。
北京大學人工智慧博士,斯坦福創業導師張有魚:不會是終極,但最重要的兩塊基石已經形成了,給整個社會創新帶來了巨大的突破。一句話:對人類好一點。
(受訪者排名不分先後)
本文系網易科技報道,更多新聞資訊和深度解析,關注我們。