我們對“計算機視覺”一詞並不陌生,它指的是讓計算機透過相關裝置模擬生物視覺來處理採集到的圖片或影片,以實現對相應場景的多維理解。那麼,我們是否能夠更進一步?本期TED大會邀請人工智慧領域先鋒李飛飛,分享她的科研成果。
李飛飛(圖源:《知識就是力量》雜誌)
“看見”——
理解世界的重要一步
生命誕生初期,世界對它們來說是一片“虛無”,此時的生物還未進化出視覺,也沒有“看”這一概念存在。慢慢地,生物感光系統開始出現,經歷了數千萬年的進化,世界上終於誕生了第一隻眼睛。生命發現這世上除了自己還有別的存在,海洋從此有了樣貌。
(圖源:《知識就是力量》雜誌)
視覺的產生極大地推動了生物進化的程序,使生物擁有了更加敏捷、強大的身體和更加複雜的神經系統。看見變成理解,理解帶來行動,而這一切都促進了智慧的發展。
現在,在好奇心的驅使下,人類正在為計算機視覺賦予更多智慧。十幾年前,人們因大型神經網路能夠在1500萬張圖片中識別目標物件而備受鼓舞,現在,生成式人工智慧已經可以將人們輸入的句子轉換為圖片和影片,計算機視覺的智慧時代已經到來了。
但是,現有的計算機視覺系統依然只能“看見”,它可以讓系統生成一隻在水中玩耍的貓,卻不能合理地讓貓的皮毛變溼,計算機視覺需要新的突破。
讓計算機
不只是“看見”
現實生活中,當我們身處三維空間,我們會進行觀察、學習、判斷和預測。例如,當看到貓推杯子的影像時,我們的大腦會觀察杯子的形狀和位置,判斷杯子與周圍物體的關係,產生它即將被打碎的推斷,並情不自禁地想要伸出手扶它。
貓推杯子(圖源:《知識就是力量》雜誌)
採取行動是擁有空間意識的生物與生俱來的衝動,它能夠將感知與行動聯絡起來,我將這一概念稱作“空間智慧”。生物用數百萬年進化出了空間智慧,將眼睛捕捉到的二維影象投射進大腦,轉化為三維的認知。現在,我將這種視覺與行動的良性迴圈引入了人工智慧領域。
研究人員正在開發各種各樣的新演算法——讓機器將一組照片轉換成三維空間、將單個影象轉換為三維形式、將詞句所描述的三維空間佈局轉換為真實的房間影象、根據單個影象生成無限延伸的空間……這是一個可能性的萌芽,這種進步正在加速機器的學習,空間智慧會成為所有需要理解並與這個世界互動的人工智慧系統的關鍵組成部分。
未來,人工智慧系統會擁有更強的理解能力、洞察力和空間感知能力,它將和我們一起追求更好的生活方式,創造更美好的世界。
撰文 | 王治鈞
責任編輯 | 牛一名、段陽陽
運營編輯 | 段陽陽
質量稽核 | 業蕾
❖ 文章來源:《知識就是力量》雜誌
《空間智慧——讓計算機感知和理解世界》 ❖
現訂購2024年
定價360元