2月7日訊息,多年來,埃隆·(Elon Musk)一直在談論Dojo——這臺將成為人工智慧戰略核心的超級計算機。Dojo的重要性不言而喻,2024年7月,馬斯克曾表示,公司AI團隊將在10月機器人計程車釋出前“加倍投入”Dojo,以加速其發展。
那麼,Dojo究竟是什麼?為什麼它對特斯拉的長期戰略如此關鍵?
簡而言之,Dojo是特斯拉自主研發的超級計算機,專用於訓練“完全自動駕駛”(FSD)神經網路。增強Dojo的計算能力,是特斯拉實現完全自動駕駛並推動機器人計程車落地的重要一環。目前,已有數百萬輛特斯拉汽車搭載FSD,能夠執行部分自動駕駛任務,但仍然需要駕駛員全程保持注意力。
特斯拉已釋出Cybercab機器人計程車,並計劃於今年6月在奧斯汀推出自有車隊的自動叫車服務。此外,公司在2024年第四季度財報電話會議上表示,計劃於2025年在美國推出無人監管的FSD服務。
馬斯克曾強調,Dojo是實現完全自動駕駛的關鍵。然而,如今特斯拉似乎已接近這一目標,他卻對Dojo保持沉默。
自2024年8月起,業界的關注點已轉向Cortex——特斯拉在奧斯汀總部打造的全新AI訓練超級叢集,旨在解決現實世界的AI問題。馬斯克表示,Cortex將具備“海量儲存能力”,專用於訓練FSD和Optimus機器人。
在2024年第四季度股東會上,特斯拉更新了Cortex的進展,卻未提及Dojo。特斯拉正大舉投資AI、Dojo和Cortex,以推進汽車及人形機器人的自動化。考慮到電動車市場競爭日益激烈,特斯拉未來的成功很大程度上取決於其在AI領域的突破。因此,深入瞭解Dojo、Cortex及其發展現狀,變得尤為重要。
Dojo的背景
馬斯克的目標遠不止於造車,他希望特斯拉成為一家AI公司,透過模擬人類感知,破解自動駕駛的核心難題。
目前,大多數自動駕駛企業依賴多種感測器(如鐳射雷達、雷達和攝像頭)及高精度地圖進行定位,而特斯拉堅持僅依靠攝像頭採集視覺資料,並透過神經網路進行處理,從而實現自動駕駛。
特斯拉前AI負責人安德烈·卡帕西(Andrej Karpathy)在2021年AI Day上曾表示,公司試圖“從零開始構建一種合成動物”。
相比之下,Alphabet旗下Waymo等公司已透過感測器與機器學習的傳統方法,商業化L4級自動駕駛汽車,可在特定條件下實現完全無人駕駛。但特斯拉至今尚未推出不需要駕駛員的自動駕駛系統。
目前,約180萬使用者支付8000至1.5萬美元訂閱FSD。特斯拉計劃透過Dojo訓練AI軟體,並以OTA(無線更新)方式推送至使用者車輛。特斯拉的大規模部署,使其積累了海量駕駛影片資料,以訓練FSD。公司的核心邏輯是:資料越多,越接近實現真正的完全自動駕駛。
然而,一些行業專家對這種“資料驅動”策略持懷疑態度。
普渡大學矽谷電子與計算機工程教授阿南德·拉格納坦(Anand Raghunathan)表示:“首先,經濟成本會成為限制因素,訓練過程很快會變得極其昂貴。”此外,他指出,“有些人認為,我們可能會耗盡有價值的資料。更多資料不等於更多資訊,關鍵在於這些資料是否真正有助於構建更好的模型,以及訓練過程能否有效提煉這些資訊。”
儘管存在這些質疑,短期內資料驅動的趨勢仍將持續。而資料的增長意味著更高的計算需求,以儲存和處理這些資訊,訓練特斯拉的AI模型。這正是Dojo的用武之地。
什麼是超級計算機?
Dojo是特斯拉專為人工智慧訓練打造的超級計算機系統,主要用於FSD神經網路的訓練。其名稱來源於武術練習場“道場”(Dojo),寓意其作為AI訓練平臺的核心作用。
一臺超級計算機由成千上萬個稱為“節點”(node)的小型計算機組成。每個節點都配備自己的中央處理器(CPU)和圖形處理器(GPU)。CPU負責整體管理,而GPU則處理高強度計算任務,例如將複雜運算拆分成多個並行任務。GPU在機器學習領域至關重要,尤其是在FSD模擬訓練中。它們同樣驅動著大語言模型的發展,這也是為何生成式人工智慧的崛起,使英偉達成為全球市值最高的科技公司之一。
即便特斯拉擁有自己的計算硬體,它仍然大量採購英偉達的GPU來訓練人工智慧模型。
特斯拉為何需要超級計算機?
特斯拉採用“純視覺”方案進行自動駕駛,這正是其需要超級計算機的核心原因。FSD神經網路依賴海量駕駛資料進行訓練,以識別和分類道路上的物體,並作出駕駛決策。當FSD啟用時,神經網路需要持續實時收集和處理視覺資料,其處理速度必須與人類的視覺感知能力相匹配。
換句話說,特斯拉希望打造一個數字化的“人類視覺皮層”及“大腦決策系統”。
要實現這一目標,特斯拉必須儲存並處理從全球車輛收集的海量影片資料,並執行數百萬次模擬訓練AI模型。
目前,特斯拉依賴英偉達GPU支撐其Dojo計算系統,但它並不希望完全依賴第三方晶片,原因包括英偉達晶片成本高昂,以及特斯拉希望打造更高效、低延遲的計算系統。因此,公司AI團隊決定開發自研硬體,以比傳統系統更高效地訓練AI模型。
這一計劃的核心,是特斯拉自主研發的D1晶片,專為AI計算最佳化。
特斯拉D1晶片:Dojo的計算核心
特斯拉秉持與蘋果類似的理念,認為軟硬體應協同設計,以提升整體效能。因此,特斯拉致力於擺脫對標準GPU硬體的依賴,轉而開發自家晶片來驅動Dojo。
2021年,在特斯拉AI Day上,公司釋出了D1晶片——一塊手掌大小的矽晶片。D1晶片由臺積電(TSMC)採用7奈米工藝製造。據特斯拉介紹,該晶片擁有500億個電晶體,晶片面積達645平方毫米,專為高效計算和快速處理複雜任務而設計。
“我們能夠同時進行計算和資料傳輸,我們自研的指令集架構(ISA)完全針對機器學習任務進行了最佳化,”特斯拉前自動駕駛硬體高階主管甘納什·文卡塔拉馬南(Ganesh Venkataramanan)在2021年AI Day上表示,“這是一款純粹為機器學習打造的晶片。”
然而,目前D1晶片的效能仍不及英偉達A100 GPU,後者同樣由臺積電採用7奈米工藝製造,擁有540億個電晶體,晶片尺寸更大(826平方毫米),因此計算能力略強於D1。
為了進一步提升計算能力和資料吞吐量,特斯拉的AI團隊將25顆D1晶片整合為一個計算單元(Tile)。
每個Tile的計算效能為9千萬億次浮點運算/秒(9 petaflops),頻寬達到36太位元組/秒(36TB/s),並內建所有所需的電源、冷卻和資料傳輸硬體。可以將Tile理解為由25個獨立計算單元組成的“小型超級計算機”。
進一步擴充套件架構:
• 6個Tile組成一個機架(Rack)
• 2個機架構成一個機櫃(Cabinet)
• 10個機櫃組成一個ExaPOD超級計算系統
在2022年AI Day上,特斯拉表示,Dojo的計算能力將透過部署多個ExaPOD進行擴充套件。這些模組化架構共同組成特斯拉的超級計算叢集。
此外,特斯拉正在研發新一代D2晶片,以解決資訊流瓶頸。D2晶片將不同的計算單元直接整合至單片矽片上,而非透過互連多個獨立晶片,從而提升計算效率並降低延遲。
特斯拉尚未披露D1晶片的具體訂單量或預計交付數量,也未公佈Dojo全面啟用D1晶片的時間表。
2024年6月,一位使用者在社交平臺X上發帖稱:“埃隆正在得克薩斯州建造一個巨大的GPU冷卻系統。”馬斯克回應稱,特斯拉的目標是在未來18個月內實現“50%使用特斯拉自研AI硬體,50%使用英偉達/其他晶片”。其中,“其他”可能包括AMD晶片,這一點得到了馬斯克2024年1月的確認。
Dojo對特斯拉意味著什麼?
掌握自研晶片生產,意味著特斯拉未來可能以更低成本快速擴充套件AI算力,特別是在特斯拉與臺積電擴大晶片產能的情況下。
這也意味著,特斯拉未來或許不再依賴英偉達的晶片,畢竟這些晶片價格高昂,且供應日益緊張。
在2024年第二季度財報電話會議上,馬斯克曾表示,英偉達硬體的需求“高得驚人,以至於我們很難穩定採購到所需的GPU。”他補充道:“我非常擔心,我們是否能夠按需獲取足夠的GPU,因此,我們必須加大對Dojo的投入,以確保具備所需的訓練能力。”
也就是說,儘管特斯拉仍在使用英偉達晶片訓練AI,但它正在努力降低對英偉達的依賴。去年6月,馬斯克在X平臺發文稱:
“特斯拉今年在AI相關領域的支出大約為100億美元,其中約一半用於內部研發,主要涵蓋特斯拉自研AI推理計算機、車輛上的感測器以及Dojo。至於AI訓練超級計算叢集的建設,英偉達硬體約佔成本的三分之二。我目前估計,特斯拉今年在英偉達晶片上的採購支出將在30億至40億美元之間。”
值得注意的是,“推理計算”指的是特斯拉汽車在實時執行過程中執行的AI計算,與Dojo負責的AI訓練計算是分開的。
儘管馬斯克對Dojo寄予厚望,他也多次承認,這一專案存在失敗的可能。
從長遠來看,特斯拉或許可以依託AI部門開闢全新的商業模式。馬斯克曾表示,首個版本的Dojo專為特斯拉計算機視覺資料的標註與訓練而設計,這對於FSD和人形機器人Optimus的訓練至關重要,但用途較為侷限。
不過,他也透露,未來版本的Dojo將更加適用於通用AI訓練。然而,這也面臨一個重大挑戰——當前幾乎所有AI軟體都是基於GPU架構開發的。如果要讓Dojo用於通用AI模型訓練,就必須對軟體進行重構。
除非特斯拉選擇向外部租賃其計算能力,就像AWS和Azure提供雲端計算服務那樣。事實上,馬斯克在2024年第二季度財報電話會議上提到,他認為“Dojo未來有潛力在算力競爭中與英偉達一較高下。”
摩根士丹利在2023年9月的一份報告中預測,Dojo可以透過自動駕駛計程車和AI軟體服務等新業務模式,為特斯拉帶來額外的收入增長,甚至可能為公司市值貢獻5000億美元。
簡而言之,Dojo的晶片不僅是特斯拉的一種戰略保障,未來還有可能帶來可觀的回報。
Dojo進展如何?
此前有報道,特斯拉於2023年7月開始生產Dojo。然而,馬斯克在2023年6月的一篇帖子中表示,Dojo“已經上線並執行有用任務數月”。
大約在同一時間,特斯拉曾表示,到2024年2月,Dojo將躋身全球五大最強超級計算機之列。但截至目前,特斯拉尚未公開披露相關資訊,因此這一目標是否達成仍存疑。
此外,特斯拉還預計,到2024年10月,Dojo的總計算能力將達到100 ExaFLOPS(每秒100萬億億次浮點運算)。按照計算,假設每塊D1晶片的算力為362 TFLOPS(每秒362萬億次浮點運算),特斯拉需要超過27.6萬塊D1晶片,或約32.05萬塊英偉達A100 GPU,才能達到這一目標。
特斯拉曾在2024年1月承諾投資5億美元,在紐約州布法羅的超級工廠建設一臺Dojo超級計算機。
2024年5月,馬斯克透露,特斯拉奧斯汀超級工廠的後部將留作“超密集水冷超級計算叢集”——但現在我們知道,這一空間實際上用於部署Cortex,而非Dojo。
在2024年第二季度財報電話會議結束後,馬斯克在X平臺上發文稱,特斯拉AI團隊正在使用Tesla HW4 AI計算機(現更名為AI4),與英偉達GPU結合進行訓練。他提到,當前訓練叢集中包含:
• 90,000塊英偉達H100 GPU
• 40,000臺AI4計算機(即Tesla HW4 AI計算機)
馬斯克補充道:“到年底,Dojo 1的訓練能力將相當於8000塊H100 GPU。這不算龐大,但也不容小覷。”
截至目前,特斯拉尚未確認這些晶片是否已全面上線並支援Dojo執行。在2024年第四季度財報電話會議上,Dojo甚至未被提及。相反,特斯拉宣佈已在Q4完成Cortex的部署,並表示Cortex是推動FSD V13版本實現的關鍵。(辰辰)