影片生成模型不如大語言模型有用，對人類的危害可能大於收益

最近，OpenAI釋出的影片模型Sora，其生成效果非常顯著，可以直接文字prompt生成影片，可以建立長達60秒的影片，其中包含高度詳細的場景、複雜的攝像機運動以及充滿活力的情感的多個角色。

該模型很重要，360董事長周鴻禕對此發表了自己的看法，他認為，Sora的出現預示著通用人工智慧（AGI）的實現可能已經不遠，而中美在AI領域的競爭差距，可能會進一步拉大。

當然，在這裡我們先不討論中美AI領域的競爭問題。筆者考慮的是這一影片生成模型會帶來什麼樣的影響。

常言道，眼見為實。我們作為智人，視覺是主要的接受資訊的渠道，而也因此，視覺是我們與客觀世界聯絡的主要渠道。與此同時，我們也發展出了很多相關的特質，比如透過視覺我們會產生諸多的情緒，可以放鬆或緊張，可以愉悅或憤怒。這也是美術、電視電影產業發展起來的核心原因。

影片的出現確實引發了諸多社會變化，早在工業時代之前，美術的作用不僅僅是記錄生活和展示財力，更重要的是透過特定藝術手法動員人們採取類似的行為，不論是祭拜、崇神還是塑造議題。在工業時代之後，進入電視機時代，大量的影片也產生了諸多改變。在1960年美國總統大選時首次採用了電視直播辯論，形象氣質更好的肯尼迪就戰勝了尼克松，人們不再透過報紙去審視政治綱領背後的邏輯，外貌形象反而取代了嚴格意義上的施政邏輯的區別。

相比於文字和照片，影片能夠更為完整地呈現資訊，雖然可以透過剪輯來改變傳遞資訊的內容，但相比之下影片往往有著更高的可信度。影片也比照片更能吸引人的注意，並且更容易誘導人類的情緒。特定的敘事節奏、鏡頭語言，這些都可以帶來不同的效果，引發不同的社會情緒。如果說煽動情緒，影片的威力要比文字和照片更大更普遍。

南越龍夫人陳麗春也是一個典型案例

但是影片本身的內容往往不容易造假，演出需要演員、場地、劇本、導演、後期等等多崗位，成本並不低，並且也相對容易識別真實與戲劇。而公共事件賴以為證據的監控影片、現場影片，則更是有著權威性和客觀性。

即便如此，在現實中，大量的短影片已經令人難以分辨真偽。而如果整個影片都是AI快速製作的，那麼我們如何知道這件事是否是真實發生的？信任要如何建立？未來會不會有虛假的影片來完全虛構事實，比如虛假的戰果或者事故、虛假的演說、虛假的公眾人物的惡劣事件？相比起來，一些影視工作者失業、明星被製作色情片已經不算什麼了。

因此，個人認為AI影片的自動生成所帶來的害處會比ChatGPT那種大語言模型大很多，ChatGPT的文字更為理性，也更容易識別。但人類太依賴於視覺提供的對現實的理解、對情緒的激發。如果AI已經可以如此生產影片，那麼人類完全可能相信完全虛構的事件，產生與事實完全無關的判斷和行動。一些莫名其妙的情緒一旦被廉價的、大範圍的激發，很可能帶來嚴重的社會後果。

考慮到ChatGPT已經有一本正經胡說八道、創造根本不存在的案例和概念的前科，Sora完全具備創造一些無中生有的社會事態的能力，這是值得關注的危害。

不過以人類的自制力，這個問題怕是無解。