1958年,德州儀器的傑克.基爾比(Jack Kilby)設計出了帶有單個電晶體的矽晶片。1965年,快捷半導體已經掌握瞭如何製造一塊擁有50個電晶體的矽片。正如快捷半導體的聯合創始人戈登.摩爾(Gordon Moore)當年觀察到的那樣,一塊矽片上可容納的電晶體數量幾乎每年翻一番。
2023年,釋出了iPhone 15 Pro,由A17仿生晶片驅動,這款晶片擁有190億個電晶體。56年來,電晶體的密度增加了34倍。這種指數級的進步,被粗略地稱為摩爾定律,一直是計算機革命的引擎之一。隨著電晶體變得越來越小、越來越便宜以及速度越來越快,今天實現了手握“超級計算機”的奇蹟。但人工智慧時代需要處理的資料數量之多,已經將摩爾定律推向了極限。
幾乎所有現代人工智慧中的神經網路都需要經過訓練,以確定正確的權重(權重用來衡量輸入訊號對於神經元的影響程度,即不同輸入的重要性權重),從而為其數十億,有時甚至數萬億的內部連線賦予正確的權重。這些權重以矩陣的形式儲存,而訓練模型則需要使用數學方法對這些矩陣進行操作。
單層神經網路的本質是矩陣相乘,兩個按行和列排列的數字矩陣集合被用來生成第三個這樣的集合,第三個集合中的每個數字都是透過將第一個集合中某一行的所有數字與第二個集合中某一列的所有數字相乘,然後相加而得到的。如果矩陣很大,有幾千或幾萬行幾萬列,而且需要隨著訓練的進行反覆相乘,那麼單個數字相乘和相加的次數就會變得非常多,這就是人工智慧的“思考方式”,透過對輸入資料的處理得出答案。
然而,神經網路的訓練並不是唯一一種需要高效處理矩陣乘法運算的技術。遊戲產業高質量的視覺呈現同樣需要這一技術,在25年前,這是一個巨大的市場。為了滿足這一需求,英偉達率先設計了一種新型晶片,即圖形處理器(GPU),在這種晶片上佈置並連線電晶體,使其能夠同時進行大量矩陣乘法運算。與大多數中央處理器(CPU)相比,GPU可以更大批次地處理資料,而且能耗更低。
2012年,訓練AlexNet(開創 “深度學習 ”時代的模型)需要為6000萬個內部連線分配權重。這需要4.7x10^17次浮點運算(flop,算力最基本的計量單位),每次浮點運算大致相當於兩個數字的相加或相乘。此前,這麼多的計算量是不可能完成的,但當時兩個GPU就完成了AlexNet系統的訓練。相比之下,如果使用當時最先進的CPU仍需要耗費大量的時間和算力。
喬治城大學安全與新興技術中心最近釋出的一份報告稱,在用於訓練模型時,GPU的成本效益比CPU高出10-100 倍,速度提升1000倍。正是因為有了GPU,深度學習才得以蓬勃發展。不過,大型語言模型(LLM)進一步推動了對計算的需求。
「Scaling Laws」打破「Moores Law」
2018年,OpenAI的研究人員亞歷克.拉德福德(Alec Radford)利用谷歌研究人員在“Attention Is All You Need”中提出的Transformers(採用注意力機制的深度學習模型),開發了一種生成式預訓練變換器,簡稱GPT。他和同事們發現,透過增加訓練資料或算力,可以提高大模型的生成能力,這個定律被稱為“Scaling Laws”。
由於行業遵從Scaling Laws定律,大語言模型的訓練規模越來越大。據研究機構Epoch ai估計,2022年訓練GPT-4 需要2x10^25個 flop,是十年前訓練AlexNet所用算力的4000萬倍,花費約1億美元。Gemini-Ultra是谷歌在2024年釋出的大的模型,其成本是GPT-4的兩倍,Epoch ai估計它可能需要5x10^25個flop。這些總數大得難以置信,堪比可觀測宇宙中所有星系的恆星總數,或太平洋中的水滴合集。
過去,解決算力不足的辦法就是耐心等待,因為摩爾定律還在生效,只需要等上一段時間,新一代的晶片就會整合更多更快的電晶體。但摩爾定律已經逐漸失效,因為現在單個電晶體的寬度只有幾十奈米(十億分之一米),要想實現效能的定期躍升已變得非常困難。晶片製造商仍在努力將電晶體做得更小,甚至將它們垂直堆疊起來,以便在晶片上擠出更多的電晶體。但是,效能穩步提升而功耗下降的時代已經過去。
隨著摩爾定律放緩,想要建立更大的模型,答案不是生產更快的晶片,而是打造更大的晶片叢集。OpenAI內部透露,GPT-4是在25000個英偉達的A100上訓練的,這些GPU叢集在一起,以減少在晶片間移動資料時造成的時間和能量損失。
Alphabet、亞馬遜、Meta和微軟計劃在2024年投資2000億美元用於人工智慧相關的領域,比去年增長45%,其中大部分將用於打造大規模的晶片叢集。據報道,微軟和OpenAI正計劃在威斯康星州建立一個價值1000億美元的叢集,名為 “星際之門”(Stargate)。矽谷的一些人則認為,十年內將出現一個價值1萬億美元的叢集。這種超大規模基礎設施建設需要消耗大量能源,今年3月,亞馬遜在一座核電站隔壁購買了一個數據中心,該核電站可為其提供千兆瓦的電力。
對人工智慧領域的投資並不全是在GPU及其功耗上,因為模型一旦訓練完成,就必須投入使用。使用人工智慧系統所需要消耗的算力,通常約為訓練所需算力的平方根,這樣的算力需求仍然很大。例如,GPT-3需要3x10^23flop的算力來訓練,則推理需要3x10^11flop算力。FPGA和ASIC晶片是專為推理量身定製的,在執行人工智慧模型方面,比使用GPU更高效。
不過,在這股熱潮中表現最好的還是英偉達。英偉達的主導地位不僅來自其在GPU製造方面積累的技術和投入大量的資金(黃仁勳稱,Blackwell的開發成本高達100億美元)。此外,英偉達還擁有用於晶片程式設計的軟體框架,即近乎已成為行業標準的CUDA。
競爭對手都在尋找英偉達的弱點。AI晶片獨角獸企業SambaNova Systems的CEO Rodrigo Liang稱,英偉達的晶片有幾個缺點,這可以追溯到它們最初在遊戲中的用途。其中一個特別大的問題是,在資料存取方面的能力有限(因為一個GPU無法容納整個模型)。
另一家AI晶片初創公司Cerebras則推出了21.5釐米寬的“晶圓級”處理器。目前的大部分GPU包含大概成千上萬個獨立核心,可以進行平行計算過,而Cerebras開發的晶片包含近100萬個。Cerebras聲稱,其另外一個優勢是,它的能耗僅為英偉達最好晶片的一半。谷歌則推出了自己的張量處理單元(TPU),可用於訓練和推理。其Gemini 1.5 ai模型一次攝取的資料量是GPT-4的八倍,部分原因就是採用了定製晶片。
尖端GPU的巨大價值與日俱增,使其成為地緣政治的籌碼。雖然晶片產業是全球性的,但只有少數幾個國家的技術控制著進入晶片產業高地的通道。英偉達的晶片在美國設計,世界上最先進的光刻機由荷蘭公司ASML製造,而只有臺積電和英特爾等尖端代工廠才能使用最頂級的光刻機。對於許多其他裝置來說,地緣政治因素同樣暗流湧動,日本是其中的另一個主要國家。
發展晶片和人工智慧技術帶來的政治博弈,使各國在這兩個技術領域的投入不斷增加,美國政府對向中國出口先進晶片實施嚴厲的管控,而中國正在投資數千億美元來建立自己的晶片供應鏈。大多數分析人士認為,中國在這方面與美國仍存在較大的差距,但由於華為等公司的大筆投資,中國應對出口管制的能力比美國預期的要好得多。
美國也在加大投資力度,臺積電在亞利桑那州投資約650億美元建立晶圓廠,並獲得約66億美元的補貼。其他國家同樣積極參與到這場競爭中,印度投入100億美元、德國160億美元以及日本260億美元,未來,透過壟斷人工智慧晶片以阻礙其他國家人工智慧產業技術發展的方式或許將會失效。
本文由雷峰網編譯自:https://www.economist.com/schools-brief/2024/07/30/the-race-is-on-to-control-the-global-supply-chain-for-ai-chips