財聯社2月17日訊(編輯 俞琪)OpenAI在昨日凌晨再亮出大招,其釋出了首個文生影片模型Sora。據OpenAI介紹,該人工智慧系統可以快速製作長達一分鐘的影片,這些影片可以呈現具有多個角色、特定型別的動作、以及主題和背景的準確細節的複雜場景。從公司官網上更新的48個影片demo來看,Sora不僅能準確呈現細節,還能生成具有豐富情感的角色。
在技術和工作原理方面,OpenAI介紹稱,因使用Transformer架構,Sora具有極強的擴充套件性,同時在基於過去對DALL·E和GPT的研究基礎構建上還利用了DALL·E 3的重述提示詞技術,為視覺模型訓練資料生成高描述性的標註。
在OpenAI的Sora之前,在去年12月21日釋出一個全新的影片生成模型VideoPoet,能夠執行包括文字到影片、影象到影片、影片風格化等操作。此前一夜爆紅的文生影片軟體Pika更掀起了AI影片應用熱潮。對於此次Sora的出現,360集團創始人、董事長周鴻禕2月16日在微博發文表示,這意味著AGI實現將從10年縮短到1年。
業內專家分析指出,具備文生影片功能的影片類生成式AI在領域,能夠有效降低創作者的創作門檻。國海證券陳夢竹在11月8日研報中提到,據量子位釋出的《AIGC/AI生成內容產業展望報告》,影片生成將成為近期跨模態生成領域的中高潛力場景,其背後邏輯是不同技術帶來的主流內容形式的變化。英偉達高階科學家Jim Fan評論認為,2022年是影像之年,2023是聲波之年,而2024是影片之年。
隨海外OpenAI、谷歌等紛紛推出各自的文生影片模型,東方證券蒯劍等人在12月18日研報中提到,國內領先廠商已入局,其中,海康威視、大華股份、螢石網路等影片分析行業領先廠商紛紛投入到多模態大模型研究和行業應用落地程序。具體來看,海康威視現已處於多模態大模型的研發階段,包括視覺、語音、文字等多模態訊號的融合訓練及處理。大華股份於23年10月釋出“星漢大模型”,該模型融合點雲、語音、影象等輸入,構建了多模態融合的行業視覺大模型。值得一提的是,信雅達憑藉“天才女兒”設立Pika的訊息刺激曾在去年11月30日至12月7日錄得6連板,公司表示,其已圍繞影象識別、 AI 定製化建模等能力開展深入研究。
此外,主營影片創意、繪圖創意類軟體產品的萬興科技近日在互動平臺表示,公司旗下影片創意產品萬興喵影/Filmora可用於各類影片的創作和剪輯,“天幕”大模型是以影片創意類AI技術為核心的多媒體大模型,涵蓋音訊、影象、影片等多模態能力。崑崙萬維旗下Star Group和Opera都具備做短影片的土壤,其中Opera在海外已經推出了短影片功能。此外,崑崙萬維天工大模型在騰訊優圖實驗室聯合廈門大學開展的多模態大語言模型測評中,綜合得分排名第一。專業智慧影片解決方案與影片雲服務提供商當虹科技擁有自研的AIGC工具集,於去年上半年釋出以靜態照片生成三維體積影片的方案。
據財聯社不完全統計,包括萬興科技、博彙科技、易點天下、數位視訊、漢王科技、當虹科技、東方國信、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在內的超10家A股上市公司近三個月以來在互動平臺披露影片生成模型領域的業務情況。其中,當虹科技1月5日互動平臺表示,公司擁有自研的AIGC工具集,釋出了以靜態照片生成三維體積影片的方案,並且透過點雲模型轉換及壓縮演算法實現高達800倍的視覺無失真壓縮,實現不同模態之間相互切換。因賽集團旗下InsightGPT目前可生成20秒以上的影片,能夠結合影象、影片大模型,融合摳圖等多種演算法,再結合音訊模型,整體渲染後最終合成完整影片。