懂行的人知道AR比VR難10倍不止!最近被瘋搶的Apple Vision Pro 屬於外觀滑雪鏡形態以VST模擬AR功能的VR頭顯,簡單說就是用攝像頭“透視”的VR。即使對於,基於光學透視OST的AR都堪稱聖盃。
一個動不動拿到大額融資的國內AR創企,所謂中國AR領域的“領頭羊”,之前最早做語音識別、智慧音箱,創始人散發著滿滿的geek氣息。在許多先行者包括巨頭Hololens和Magic Leap都幾年拿不出一款新品、時不時被傳團隊解散,國內相關企業如影創倒閉甚至創始人因融資糾紛有牢獄之災,AR企業幾乎集體揭不開鍋的時候,Rokid的風光讓人疑竇叢生。
AR的直觀理解
Rokid的AR和Apple Vision的AR截然不同,很難歸類為同一類產品。但兩家都瞄準著挖掘消費電子AR頭顯的金礦。
相比電視機的大螢幕 、PC的中螢幕、手機的小螢幕,如果你眼前的三維空間成為一個新的“視窗”,現實世界的“實物“全部可以虛擬、任意塑造、增強,戴上一副眼鏡或頭顯能夠實現眼前空間的徹底數字化,對於生活和工作完全是顛覆。
我們見證過iPhone風靡全球,它真正發明了智慧手機,如今跟工作和生活息息相關,出門手機低電量甚至會帶來生存焦慮。同樣道理,未來我們可能也離不開下一代AR消費電子,即“空間個人計算機“。
要理解AR,要知道先行一步的VR本質上是一個什麼東西。就像你看3D電影,VR眼鏡類似電影幕布整個“包裹”住你眼睛,你看到的完全是計算機生成的視覺資訊,沉浸其中。戴上VR眼鏡會讓視覺和外界處於物理斷聯的狀態,因為VR要隔絕外部光線要打造沉浸,現實裡完全隔絕外部視線是危險的,VR要拓展到工作和生活場景,必須要實現對周圍環境的感知。VST,即Video See Through,就是VR眼鏡感知外部的解決方案,高畫質攝像頭和相應的影片流處理單元即對應的VST硬體。
AR與之不同的是,它一般是OST,即Optic See Through,它在物理形態上不遮擋外部光線,不追求完全沉浸,使用者看到的是外部環境光和計算機生成的影象的疊加。AR可以設計成沉浸或不沉浸,類似電鍍調光技術還可以隨意調整環境光透過率,當外部進入的環境光降低到0,就變成了類似VR。
直觀理解,VR追求沉浸在物理設計上隔絕了眼睛能直接看到外部光線,必須藉助VST。AR是相對“透明”設計,它允許一部分或絕大部份光線穿過光學鏡片進入眼睛。
蘋果Vision Pro所演示的VST路線
庫克之前對AR的興奮完全出於真情流露。收購供應鏈新銳創企、關鍵軟硬體默默自研、等待基礎技術進步和成熟,蘋果在推出Vision Pro之前不知道蟄伏了多久,Vision Pro也被期待是下一個iPhone時刻。
從終端硬體上看,Apple Vision Pro 的核心處理器M2、專用感測器資料實時處理器R1、高度定製的類Pancake的3片式透鏡,來源於多年自研和收購前沿技術公司,並且做了深度整合。數量龐大的多種類感測器,包括用於眼球追蹤的紅外相機、三維空間感知和建模的LiDar Camera和深度相機、前向和側向覆蓋多個角度的高畫質RGB攝像頭,帶來的眼球追蹤+裸手手勢+語音互動,從硬體到演算法上的調教一出場就站在行業的頂峰,真實效果震撼了許多人。Vision Pro在VR頭顯的易用性、使用頻率和可能的場景擴張上蘊藏巨大潛力。
Vision Pro 所演示的Eyesight功能,覆蓋著玻璃罩的曲面OLED多角度格柵式顯示,基於深度學習的臉部建模和數字頭像(表情)傳遞,外部動態的智慧化提醒和切換,讓佩戴頭顯的使用者自然且巧妙地感知外界資訊。相比之下,以往佩戴VR頭顯的使用者和其他人幾乎無法正常“交流”,人與人之間的視覺割裂,陷入資訊孤島,環境安全和友好幾乎是無法解決的問題。
三言兩語很難完全講清Vision Pro的領先究竟在哪個層次。相比來自Meta、位元組Pico的已有同類產品,有些媒體將Vision Pro的領先概括為“硬體堆料“,顯得淺薄且可笑。蘋果公司對使用者需求的理解,產品形態和人機互動“規範定義”的拉力,富有魔力的營銷和對使用者體驗的拿捏,這種自帶的扭曲現實力場讓Vision Pro被迅速搶購一空。可以預見,我們很快就可以看到競品在功能上“跟進”,外觀上借鑑,甚至直接粗暴抄襲。
Vision Pro可以說充分外顯了蘋果領先時代的產品哲學和創造底蘊。風口之下的另一邊,在中國所謂的AR企業領頭羊,被媒體描繪為“一杯酒融一個億“的Rokid,今年上半年推出了Rokid Max折返式光路BirdBath原理的AR眼鏡,這種幾乎只有顯示功能的OST AR眼鏡,產品原理和售價相比Vision Pro差別巨大。
Rokid在國內資本市場被追捧據說源於這家公司的“人機互動”基因,但強大的硬體是應用、作業系統和完整生態的基礎載體,沒有一個成熟且達到一定滲透和使用率的硬體終端,Rokid頻繁舉辦的開發者活動、對於自研空間操作的宣傳,不知道支點在哪。基礎邏輯可以說完全不通。
Rokid 相比同行如已經倒閉的影創,同樣做BirdBath AR眼鏡、經常參與國外專業技術組織研討和展覽活動的Xreal,以及TCL孵化的、同時推進兩條產品線的雷鳥創新,包括BirdBath AR眼鏡以及全綵顯示Micro LED搭配光波導OST的AR眼鏡,Rokid身上的疑點簡直不要太多。
Apple Vision Pro對比Rokid Max,究竟有怎樣的差別?
首先,產品原理。VR/AR頭顯的產品原理其實並無本質區隔,它們都可以概括為:由計算機生成的影象經過光學調整,在非常近的距離讓眼睛對焦。
當計算機實時生成的影象在一小塊“顯示屏“上出發,影象光源經過透鏡放大,在設計好的光路中傳輸,實現超短距離的對焦,再進入瞳孔,我們就看到了虛擬影象。AR與之基本類似,不同的是,AR的小螢幕並不像VR一般放在眼睛前方,因為這樣會遮擋外部視線,它一般設計在不遮擋視線的頂部鏡架或側部鏡腿位置。AR生成的虛擬影象經過光路,會和外部真實光線一起進入眼睛。
Apple Vision Pro所使用的多透鏡Pancake摺疊放大光路,影象光源來自眼睛前方的微顯示屏
BirdBath原理AR眼鏡,影象光源來自頂部微顯示屏(示意圖來自鴻蟻光電公司)
第一個關鍵對比,生成影象的“小螢幕”。這塊小螢幕解析度必須足夠高,還需要非常高的亮度,因為不同的光學模組光效率大相徑庭,要保證一定的入眼亮度,以及豐富的的色彩、對比度,低耗電等。迄今為止最佳的解決方案是矽基OLED螢幕,即矽晶片驅動的超密集OLED微型“顯示器”,索尼已經實現指甲蓋大小的面積上實現4K解析度的矽基OLED小螢幕。多家科技巨頭還在研發Micro LED,不過Micro LED目前無法在一塊矽基板上同時實現RGB三色超高亮度顯示。
微顯示屏作為新興顯示產業,終端品牌都需要從供應鏈廠商採購。Apple Vision Pro使用了2塊索尼4K解析度的OLED微顯示屏作為內屏,一塊異形柔性屏AMOLED作為前向eyesight顯示(外屏),後續傳言還會將視涯和京東方加入供應鏈。微顯示屏需要在解析度、色彩、功耗、成本上不斷進化,頭顯的“空間解析度”對於提升產品體驗至關重要,面板巨頭主導著技術進步和批次生產良品率。
之前媒體流傳的BOM清單顯示,售價3499美元的Apple Vision Pro硬體物料成本約 1509 美元,其中,索尼供應的兩片4K解析度OLED內屏一片350美元,合計 700 美元,幾乎佔據了物料成本的一半,為成本最高的零元件。相比之下,臺積電代工的M2 處理器僅需 120 美元。
2023年年中釋出的Apple Vison Pro,採用了4K解析度的昂貴OLED微顯示屏,(型號可能是官網顯示的1.30type ECX344A),相比2023年上半年釋出Rokid Max,還停留在1080P解析度。
第二個關鍵對比,光路傳輸,即光學顯示透鏡的設計,VR頭顯一般有透鏡、涅菲爾透鏡、Pancake透鏡模組三種方案。它們之前的差異就是模組輕薄程度(關鍵)和一系列影響顯示效果的光學特性,如FOV、光效率、MTF、雜散光抑制、像差和色差消除、超高解析度適配等。Pancake最為輕薄,關鍵光學引數綜合最好,但也是近乎10倍於傳統透鏡的價格。
根據多方信源,Apple Vision Pro採用了定製的多片式(3片)Pancake透鏡模組。蘋果官方新聞稿中明確提到“定製的折反射透鏡”字樣,Pancake屬於折返射透鏡的其中一類,蘋果已收購的光學公司Limbak就以折反射方案聞名,此前還推出了某種“超級Pancake”透鏡設計。
熟悉光學透鏡設計和製造的人知道,Pancake本身就是一個剛出來沒幾年的前沿高階方案,適配超高解析度螢幕的Pancake模組,(根據同行HyperVision解析)Vision Pro使用的還是多片式帶有獨特非標曲面的定製Pancake模組,這意味著對齊、加工精度和量產一致性是個非常大的挑戰。透鏡模組的設計,分光、極化偏振、消除鬼影的各類光學鍍膜和層片需要有非常深厚的光學研究和積累。
Apple Vision足夠獨創且研究艱深,構築了一定的產品壁壘,頭顯整體的精密和複雜從光學透鏡一個元件上就能體現。相比之下,中國的AR廠商如Rokid Max似乎還是用中國供應鏈廠商的整體BirdBath模組方案。惠牛、鴻蟻或視涯,直接拿來用。
嚴格地說,Apple Vision Pro這種不同原理的複雜頭顯、完全不同的產品形態,Rokid不應該拿來對比。但同類型的BirdBath AR眼鏡,Xreal 能夠獨立設計光引擎+透鏡模組,並且在無錫有光引擎元件的量產工廠,這也是Xreal能夠在國外專業技術組織SID Display VR/AR專場頻頻亮相的原因。因為即便BirdBath,也有PBS偏振分光稜鏡,消除多源頭的雜散光、邊緣炫光、矯正像差和色差的鍍膜,設計光路、適眼距、eyebox、改進MTF等諸多細節。
Rokid即使相比雷鳥創新,雷鳥的BirdBath產品線也是拿來主義,但起碼雷鳥毫不畏懼另一條產品線Micro LED+光波導方案“真AR眼鏡”的技術困難。雷鳥創新雖然直接使用了來自JBD的Micro LED的X-cube RGB三塊小面板方案,但成功落地量產,解決了配套的研發、測試、量產一致性的諸多問題。
沒有從底層產品原理上最細微處的洞察,對光學的積累和重視,沒有完全從0到1的獨創精神,是無法做出真正領先市場的AR硬體終端。
第三個關鍵對比,感測、資料傳輸&處理、人機互動和人機工程對於視覺-人腦的深入研究,這是當前技術研發能夠拉開差距的關鍵地方。光學顯示透鏡和小螢幕都有比較成熟的供應鏈廠商,昂貴或便宜,好的不好的,大家可以選擇。即使蘋果、Meta、谷歌近10年收購的光學和微顯示領域的研究型創企,也基本上處在實驗室的超前概念預研階段,能真正落地整合進自家產品且商用的很少。體驗做不到超前的獨一檔。
VR跟裹住眼睛的3D幕布不同的是,VR需要能跟外界進行互動,比如手勢互動、眼球運動、頭部運動、肢體體感、指環或手柄。實現互動的硬體基礎,設計專門的高精度感測器,比如基於dToF原理的鐳射雷達、基於紅外點陣特徵識別的深度相機、高畫質RGB攝像頭,以及相匹配的先進演算法。感測器的數量、分佈、精度、演算法的效果會有明顯差異。
以Apple Vision Pro為例,它將眼球追蹤+手勢互動+語音操作做到了極致,並且將其引導成“空間計算”最舒服最符合直覺的互動模式。為此,Apple Vision Pro在感測器的硬體配置和演算法上下了非同一般的功夫,比如為了實現高精度的眼球追蹤,別家都是左右眼各一個紅外相機和數個IR LED等,Apple Vision Pro 左右眼各兩個IR Camera+環繞眼眶更多的 IR LED。已經公開的專利也顯示,蘋果在視網膜透視、特徵識別上進行了大量的研究,為了進一步提升精度,甚至有工業級的鐳射干涉測量原理的方案被披露出來。
Vision Pro 配備了 4 個定製的紅外相機(左右眼各 2 個),使用多達 34 顆紅外 LED 燈,可以非常精準的追蹤和預測眼球視線的變化,凝視和掃視。資料傳輸和處理上,Vison Pro 同時搭載了 M2 和全新的 R1 晶片,M2是桌面級效能非常強大的核心處理器,而R1 晶片是蘋果為 vision pro 設計的感測器資料實時處理定製晶片,類似iPhone協處理器,是其實現高效能眼動追蹤重要基礎。R1 晶片專門處理 12 個攝像頭、5 個感測器和 6 個麥克風的輸入,以確保內容實時呈現在使用者眼前,R1 晶片能在 12 毫秒內將新影象傳輸到顯示屏中,降低影象到螢幕的延遲,以超高的精度、極低的延遲識別使用者所在的環境以及使用者的手勢和眼球的運動,精準分析出需要渲染的場景,從而實現動態注視點渲染功能。透過 Vision Pro 提供的低延遲、高精度資訊輸入,使用者得以從手柄控制器中解放出來,只需眼睛注視即可準確地選中元素,以極其自然、優雅且直觀的方式與數字世界進行互動。
Vision Pro讓眼球追蹤真正落地成為主要互動方式,還是令一眾觀察家驚訝不已。
微軟HoloLens 2軟體開發指南中曾提到,人眼視線的運動是不規則且跳躍的,並且速度很快。可能在使用者完成點選動作之前,視線早已經飄走,因此將快速眼睛凝視訊號與慢速的控制輸入結合起來需要格外小心。 此前Meta Reality Labs的一份關於“手柄、頭動以及眼動互動”的一份研究指出,以90Hz執行的平均精度誤差低於1°的眼動追蹤系統(在無游標或其他反饋的條件下),它在易用性、採用率和疲勞度相較於頭部輸入(Head input )分別提高了66.4%、89.8%和116.1%,而相較於手柄輸入則分別降低了4.2%、8.9% 和 116.1%,不過它的失誤率是三者當中最高的。
除了強大的感測器和實時資料處理,在演算法方面,蘋果也早早進行了佈局。根據外部資料,早在2017年,蘋果收購德國眼動追蹤技術開發商SensoMotoric Instruments(SMI),這是一家專注於該細分領域的頭部企業,已有30餘年的發展歷史。
蘋果前員工Sterling Crispin爆料稱,蘋果圍繞Vision Pro有一個專門研究神經技術的開發小組,而他所做的工作之一是透過AI預判使用者的操作行為。他提到,“你的瞳孔會在你點選某物之前作出反應,部分原因在於使用者對接下來發生的事有所期望。因此,可以透過觀察使用者的眼睛行為並配合實時反饋的UI來增強使用者大腦的預測性瞳孔反應,從而建立生物反饋。” AI演算法的加入,是Vision Pro的眼動互動備受好評的重要原因之一。
眼球追蹤只是蘋果Vision Pro在人機互動體驗高出同行一截的顯性部分。在感測、資料傳輸、計算、人機互動軟硬體方案上,亮點實在是太多。
比如在AR/VR剛興起時,業內就幾乎確認了裸手互動是重點方向,只是要想做好手勢互動精準且流暢,技術難度不小。而裸手互動被蘋果真正推向了極致,展現了與市場上其他玩家完全不同的策略。Vision Pro配備了多個用於手勢識別的攝像頭和感測器,可以檢測腰部以下的手勢,使用者還可以把手放在膝蓋上進行操作,這是之前VR廠商做不到的。
主流VR的手勢追蹤必須將手放在攝像頭FOV範圍內,使用時雙手必須微抬或舉在身體前面,時間一長就非常累,導致使用者體驗差。而Vision Pro則擁有6顆SLAM+手勢攝像頭,其中有兩顆向下的攝像頭專門捕捉手垂放在腿上的視角。另外,還有兩顆斜向下的攝像頭同時兼顧SLAM和手勢。甚至為了弱光環境下手勢識別準確性,蘋果還加入了兩顆紅外LED進行輔助。
這種垂直視角的攝像頭,專門用於捕捉大部分時間、不抬手的時候的手勢,因為很多時候雙手應該自然垂放在腿或桌子上,符合人體工學邏輯。蘋果Vision Pro是AR/VR中的首家採用這一方案的裝置,屬於獨一份。
Apple Vision Pro 眼球追蹤體驗重新整理了行業認知,多種型別感測器硬體、分佈、演算法研究之深很難給出準確評估,硬體底層還有專門的感測器資料實時處理晶片R1,極限壓縮互動上的反饋(影象)延遲,Apple Vision Pro在人機互動的軟硬體的方方面面,幾乎獨創了整個方案。其他廠商短時間幾乎沒有可能追趕得上。
更值得深度思考的是Eyesight。根據Vision Pro官方釋出會的說法,Eyesight是一項引進先進AI後才解決了某項一直阻礙團隊重要難題的互動方案,它完全不同於傳統VR的產品視角,少有人知曉的細節:Eyesight的硬體實現,讓外部攝像頭感測器位置偏離常規,相應的矯正演算法增加了不少的設計困難。
為了Eyesight,Vision Pro多用了一塊複雜的曲面OLED外屏,增加了曲面玻璃罩的“死重“,為此還需要重新調整感測器分佈,進行實時畫面矯正,代價不小。蘋果也在釋出會上花了很大篇幅講Eyesight。
國外著名的AR專家Karl Guttag在個人部落格上暗示,蘋果在VR頭顯上擊中了關鍵點,深思熟慮後為了Eyesight 在產品上做了重大妥協,體現了這家公司對產品和使用者的深刻洞察力:Eyesight做到了外圍視覺的動態感知,佩戴頭顯的使用者能夠真正融入日常環境,與他人更符合人類的方式互動,讓VR頭顯開始真正具備大眾消費電子產品的可能。基本可以預見,Eyesight 馬上也會成為行業的“高階標配”。
再回過頭來看,中國的AR創企代表Rokid,有位參加Rokid首屆高校XR內容創作大賽的選手在媒體上這樣寫道,
Rokid Max Pro,這款眼鏡從外觀和手感/重量上其實與Rokid Max基本沒有什麼區別,就是兩眼中間位置增加了一個攝像頭。而利用這個攝像頭以及另一款目前還不能公佈的硬體,Rokid Max Pro使用者能實現SLAM( 即Simultaneous Localization And Mapping視覺定位和建圖)、3D裸手互動等功能。嗯,我相信你一定見過同類產品上利用雙目視覺實現該功能的產品,但Rokid Max Pro卻只用單目,這效果真的OK麼?我現在不能透露有關它的一些技術細節,但我可以說的是這款產品在定位的“穩定性”以及手勢動作識別“精確度”、“延遲性”上的表現令我驚歎....
還在糾結和對比單目還是雙目的視覺SLAM...感測器的精度、資料的延遲、資料流的處理模式、有沒有專屬晶片和定製感測器這種底層創新暫且不表,產品宣傳如此高調,“空間計算作業系統”、“超前的應用開發生態”、“人機互動重大創新”、“AR空間創作工具“,投資人是真不懂嗎?
如此簡陋,毫無技術含量的供應鏈組裝品,卻成為中國AR企業的代表,融資如喝水一般簡單,不禁莞爾一笑。底層創新是如此之難。但你剛挖好農村宅基地的地基,卻要在這上面壘起來上海中心大廈?
這一波風口,飛上天之後,總該拿出點硬貨。我不信投資人真的不懂Apple Vision Pro的創新有多麼深刻。在歷時兩個月的深入研究後,我相信真正的創業者應該出發了。