Sora公佈第10天,同行已經坐不住了。
2月16日,中國大年初七,OpenAI公佈了全新的生成式人工智慧模型Sora:輸入自然語言指令,輸出至多60秒的影片。
從文字到影片的生成式AI模型並不新鮮,但sora——就像ChatGPT——一樣,因其斷崖式的質量提升,登時點燃了網際網路。高畫質的畫質,流暢的畫面,乍看之下頗為自然的物理軌跡,和一年前近乎鬼畜的“威爾·史密斯吃義大利麵”影片看起來像隔了一個世紀,同行去年才釋出的AI產品與之相比也黯然失色。
10天很短,但在AI領域卻足以生變。
至少有兩家AI界“當紅炸子雞”站了出來:2月22日,StabilityAI正式開放Stable Video的公測,該產品背後的模型Stable Video Diffusion去年11月就已經發布。幾乎同時,另一家在文生圖領域頗有建樹的Midjourney也透露,可能會在下一次迭代時包含影片功能。
昔日“炸子雞”站在陰影中,追不上Sora的同行有難了。
A
在接受了Sora演示影片的直接衝擊之外,人們立刻開始做縱向和橫向的比較。
縱向比較,人們拿出了一年前“威爾·史密斯吃義大利麵”的AI影片。這位好萊塢明星臉部變形嚴重、面的形態千變萬化,分分鐘觸發恐怖谷效應,越看越詭異。
一年之後,Sora已經可以做出一個女人在東京街頭漫步的影片,不管是畫面質量、連續性和穩定性,還是女人的步態與神情,都已經幾乎可以以假亂真,讓人連連稱讚:文字到影片的進步也太大了。
可惜的是,儘管無數網友在OpenAI CEO山姆·奧特曼(Sam Altman)的社交媒體賬號下求Sora版本的“威爾·史密斯吃義大利麵”,並沒能得償所願。倒是史密斯本人跑出來整了個活兒,真人拍攝,“偽造”了一個新版本。你別說,還真差點給人騙過去——真人都能拍影片假裝是AI生成的了,倒也足見Sora影片的高質量。
橫向對比,同行就有點尷尬了。OpenAI把每一個Sora演示影片的文字指令都公佈了,雖然人們不能直接用Sora,但是可以拿著指令去市面上已有的產品裡試,看看有什麼差別。
不試不要緊,一試嚇一跳:看到Sora影片的時候就覺得厲害,看了同行的表現更對Sora的威力有了新的認知。
同樣是女人在東京街頭漫步的指令,Runway生成的影片暫停看還都像那麼回事,連起來就只能用“千變萬化”形容,女人的形象並不能隨著時間的推移保持穩定。要知道Sora的演示影片中還有機位的變化,從遠景到臉部特寫,女人的形態始終如一。Runway生成的影片更像是很多張圖片的動態融合。
StabilityAI——就是那個開源了文生圖Stable Diffusion的公司——的Stable Video生成的畫面清晰度和美觀度都很不錯,但是女人的臉變形嚴重,看起來很像一個骷髏頭,詭異感拉滿。
Pika則有些取巧,其畫面相對流暢,但比較模糊,且並非寫實風格。
此外,打鬧的猛獁象、行駛中的汽車、俯瞰的景觀、看蠟燭的小怪物等指令都被網友做了橫向對比,Sora並非和同行打得有來有回,而是碾壓了同行。
B
一朝之間,文生影片當紅“炸子雞”發現自己站在了OpenAI投下的陰影中。
從文字到影片的AI工具並不是新鮮事物。在2023年,多個文字到影片AI工具問世,Runway、PikaLabs(下稱Pika)、StabilityAI等初創公司在這個賽道都備受矚目,熱錢不斷,估值暴漲。
其中Runway成立於2018年,3月開放Gen-2內測,6月正式對外發布。此前有Gen-1影象到影片AI工具。Runway同時還技術支援了多部電影。其中最大名鼎鼎的是奧斯卡獲獎影片《瞬息全宇宙》。
Runway的CEO兼聯合創始人克里斯托瓦爾·巴侖蘇埃拉(Cristóbal Valenzuela)說:“我們已經看到了影象生成模型的爆發。我相信,2023 年將會是影片之年。”
在5月時,Runway已經完成了1.41億美元的D輪融資,投資方包括谷歌、英偉達等,估值暴漲三倍,達到15億美元,
Pika去年4月剛剛成立,A輪融資達5500萬美元,估值登時超過2億美元,11月就釋出了第一個文字到影片產品Pika1.0。到了12月時,其使用者已有超過50萬,每週生成近百萬影片內容。
而StabilityAI則因其文字到影象工具Stable Diffusion名聲在外,早在2022年獲得1億美元融資後,估值就已經超過了10億美元,成為獨角獸企業。去年11月,Stable Video Diffusion釋出,注意後面還有一個“Diffusion”字尾,這是一個基於Stable Diffusion的生成式影片基礎模型,需要使用者自己部署使用,還不算面向大眾釋出的產品。
StabilityAI官網
三家初創公司,2023年三個重要生成式影片產品/模型,突然就被Sora會心一擊。
在OpenAI興沖沖向世界展示Sora之後,Runway的CEO巴侖蘇埃拉在社交平臺X上發帖:“遊戲開始(Game On)。”而StabilityAI的CEO兼創始人莫斯塔克(Emad Mostaque)則將奧特曼稱作“巫師大人”。
從演示影片來看,Sora的確有改變遊戲格局的威力,跟不上Sora的同行有難了。
參照ChatGPT釋出之後,雖然AI浪潮讓投資人熱情高漲,AI初創公司如雨後春筍般冒出來,新晉獨角獸一個接著一個。但這是一個冰火兩重天的故事,不少AI創業公司走上下坡路,或尋求收購,或大幅裁員,甚至就此壽終正寢。據智東西梳理,僅2023年11月到2024年1月,全球就有AI新聞初創企業Artifact、AI醫療公司Olive等4家AI初創企業宣佈關停。
The Infoemation稱,至少有7家開發生成式影片的AI公司,共籌集了至少5.5億美元的資金。有投資人私下對The Information表示,之前剛剛錯過某熱門AI影片初創企業的融資,看到Sora的影片後“感到慶幸”。
C
人工智慧賽道熱度高,但門檻也高,廝殺之中刀光劍影,掉隊就可能掉入墳墓。
知名AI初創企業Huggine Face在一篇博文中,提到了文字到影片的三大挑戰:算力挑戰,確保跨幀空間與實踐的一致性伴隨著高計算成本,使得大多數研究人員無法負擔這類模型的訓練費用;缺乏高質量資料集,用於文字到影片生成的多模態資料集非常稀少,而且經常缺乏註釋;指令模糊性,如何以一種讓模型更容易學習的方式描述影片不是一件容易的事。
即便是看似站穩了腳跟的StabilityAI都麻煩不斷。去年6月,福布斯釋出一則長新聞,超過30位StabilityAI前員工和投資人細數創始人兼CEO莫斯塔克的9大罪證,包括:竊取StableDiffusion成果融資10億;隱瞞融資困難;誇大公司收入;拖欠員工工資;學歷和工作經歷造假。
拋開其他不談,矽谷“當紅炸子雞”卻又融資困難、公司收入被誇大的問題,著實令人意外。知情人士稱,StabilityAI每個月的開銷大概是800萬美元,而莫斯塔克卻曾自爆公司8月的營收大概在120萬美元,有機會超過300萬美元。莫斯塔克很快就刪除了該帖,但從這個數字不難聞到燒錢的味道。
11月,也就是其釋出Stable Video Diffusion模型的同月、公司完成1億美元融資的一年後,StabilitAI傳出多位高階管理人員辭職、公司財務狀況脆弱的訊息,並一度傳聞考慮出售,這一訊息隨後被莫斯塔克否認。
入不敷出、人才流失,StabilityAI的危機暴露了光鮮的熱門創企的軟肋。
巨頭的加入也會讓戰事更加激烈。在AI影片的賽道,巨頭早有佈局。2022年10月,Meta和谷歌相繼發力。Meta先發布了Make-A-Video模型,僅一週後,谷歌CEO桑德爾·皮查伊(Sundar Pichai)親自安利他們在這一領域的兩個最新成果,Imagen Video和Phenaki,分別強調影片品質和長度。
但不管是Meta還是谷歌,目前都尚未向公眾開放其文字到影片AI工具。谷歌官方認為用於訓練AI影片模型的資料仍包含有問題的內容,可能會導致Imagen Video產生圖形暴力或色情剪輯,造成不良影響。巨頭的保守操作大家也都熟悉了,在自然語言聊天機器人的賽道,谷歌也是早早就手握模型但未向C端推出產品,原因也是安全問題。但ChatGPT與微軟的聯手讓巨頭走出保守,Sora未嘗不能做同樣的事。
已經有巨頭有新動作。在Sora公佈的一週前,位元組宣佈人事變動,原抖音集團CEO張楠宣佈辭去集團CEO一職,未來把精力聚焦在剪映的發展上。據時代週報援引接近剪映的人士,張楠親自帶隊尋求在AI輔助創作上突破,並即將推出一個AI生成影片的產品。
面對新開的“遊戲”,Sora的同行只能全力向前。
就在Sora公佈的幾天之後,2月22日,StabilityAI正式開放了Stable Video的公測,從模型走向人人可以方便上手的產品。雖然影片長度還是比較短,只有7秒,但影片質量比較高。莫斯塔克在社交平臺上宣傳新產品時顯得很謙虛,表示開放的原因是:“我們想要創造類似Sora的大型開放的Stable Video2,但需要更多的資料和計算。”
此外,在文生圖領域有超高口碑的Midjourney也跑步入場,創始人大衛·霍爾茲(David Holz)在Office Hours中透露,下一個版本,也就是Midjourney V7“可能包含影片功能”。
OpenAI現階段還在對Sora進行評估,距離Sora正式對外公開可能還有幾個月的時間。好訊息是,同行還有時間應變。壞訊息是,留給同行的時間不多了。
參考資料:
1、智東西:《AI創業冰火兩重天:Sora降世資本狂歡,數家創企倒閉關門》
2、連線Insight:《Sora來了,位元組發力:張楠的重任和挑戰》
3、新火種:《被迫賣身、CEO下臺、高管出走,又一家AI獨角獸出事》
4、機器之心:《影象生成卷膩了,谷歌全面轉向文字→影片生成,兩大利器同時挑戰解析度和長度》
5、財聯社:《AI圈子不太平 知名開源模型開發商Stability AI被曝 “尋求賣身”》