李飛飛首個"空間智慧"模型釋出：一張圖，生成一個3D世界

今日凌晨，由「AI 教母」聯合創辦的 World Labs 釋出了他們的 第一個「空間智慧」模型， 只需一張圖，就可以生成一個逼真的 3D 世界 。

據介紹，對於輸入的影象，這一「空間智慧」系統可以估算出 3D 幾何圖形，填充場景中未見的部分，建立新的內容，實現各個方位的 3D 世界構建。

例如，當你輸入圖片：

你會獲得這樣一個 3D 世界：

與生成式 AI 工具生成的圖片或影片等 2D 內容不同，以 3D 形式生成的內容具有更好的控制性和一致性。而且，該模型還可以適應各種場景型別和藝術風格，比如生成不同的相機效果、3D 效果以及經典繪畫風格的 3D 內容。

這將改變我們製作電影、遊戲、模擬器和其他物理世界數字表現形式的方式。

以下為官方完整短片：

相機效果

World Labs 團隊在官方部落格中寫道，輸出的 3D 場景可以在瀏覽器中實時呈現，且能夠實現完全的相機控制。

這意味著你可以像在電子遊戲中一樣使用自由移動的相機來探索它們，甚至可以模擬 3D 相機效果，如淺景深（即只有距離攝像機一定距離的物體才能對焦）或多軸變焦（同時調整相機的位置和視野）。

1.淺景深模擬效果

‍2.‍多軸變焦效果

3D 效果

大多數生成模型預測畫素，而預測 3D 場景則有很多好處：

持久現實：世界一旦生成，就會一直存在。即使你把視線移開，再回來時，場景也不會改變。

實時控制：生成場景後，你可以在場景中實時移動。你可以留心觀察一朵花的細節，也可以窺探某個角落，看看會有什麼發現。

正確的幾何形狀：生成的世界符合 3D 幾何的基本物理規則。它們具有一種實體感和深度感。這與某些人工智慧生成影片的不真實感形成了鮮明的對比。

視覺化 3D 場景的最簡單方法是繪製深度圖，其中每個畫素的顏色取決於其與相機的距離：

你可以使用 3D 場景結構來構建互動效果——只需點選一下，就能與場景互動：

你還可以製作特效，使場景動畫化：

走進繪畫世界

World Labs 團隊還嘗試窺探了一些創意傑作背後的世界，從梵高、霍珀、修拉和康丁斯基的作品中生成了他們最喜歡的世界。重要的一點是，這一「空間模型」可以生成原畫中沒有的內容。一起來欣賞 3D 版世界名畫：

3D-原生生成式 AI 的無限可能

研究團隊認為，3D 世界生成可與其他人工智慧工具自然地結合。例如，你可以首先使用文字到影象模型生成影象，從而從基於文字建立世界。

他們還與一些創作者合作探索了 3D 原生生成式 AI 工作流帶來的各種可能性。

例如，Brittani Natali 在生成的世界中精心設計了相機路徑，透過三部短片喚起不同的情緒，其工作流程結合了 World Labs 的技術和 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具：

研究團隊表示，這些成果是他們生成 3D 世界的首個早期預覽。他們正在努力改進生成的 3D 世界的大小和逼真度，且在嘗試與使用者互動的新方法。

整理：學術君

如需轉載或投稿，請直接在公眾號內留言