資訊科技快速發展,全球對算力的需求與日俱增。從 AI 到大資料分析,再到、自動駕駛,幾乎各個領域的進步都離不開強大的算力支援。
然而,當前傳統晶片製造工藝逐漸接近物理極限,嚴重製約了算力的提升空間。面對這一挑戰,開發晶圓級晶片成為了一個備受關注的解決方案。
晶圓級晶片透過構建整片晶圓規模的大規模積體電路,打破了傳統晶片設計中由光刻口徑施加的面積牆限制,對比等效的算力叢集,能夠顯著提高系統整合度,減少互連延遲和功耗。
“未經切割的晶圓上電路單元可以更緊密地排列,形成頻寬更高、延時更短的互連結構,大幅加速資料傳輸。晶圓級晶片可以說是目前為止算力節點整合密度最高的一種形態。我們測算,其單機櫃算力密度能夠達到現有 GPU 方案的 200 倍以上。”清華大學積體電路學院胡楊教授告訴「問芯」。
胡楊於 2017 年在美國佛羅里達大學電子與計算機工程系獲博士學位,之前分別在天津大學和清華大學獲得本科和碩士學位。博士畢業後他加入德克薩斯大學達拉斯分校擔任電子與計算機工程系助理教授,獲得 NSF CAREER AWARD。現在他是清華大學積體電路學院副教授、博士生導師,擔任科技創新 2030“新一代人工智慧”重大專案負責人。
截至目前,他已發表學術論文 90 餘篇,其中在 ISSCC、JSSC、ISCA、HPCA、MICRO、ASPLOS 發表一作及通訊作者論文 20 餘篇,現階段的研究方向主要圍繞晶圓級 AI 晶片體系架構、整合架構、編譯工具鏈以及集群系統等。
“晶圓級晶片擁有更高單位體積電晶體密度與算力”
常規晶片生產流程中,一個晶圓在光刻後被切割成許多小裸片(Die)並單獨進行封裝,每片裸片都單獨封裝為一顆完整的晶片。
而晶圓級晶片,顧名思義,透過製造一塊不進行切割的晶圓級互連基板,再將設計好的常規裸片在晶圓基板上進行整合與封裝,從而獲得一整塊巨大的晶片。對比傳統晶片構成的計算叢集,晶圓級計算系統透過先進整合技術獲得了晶片級的互連能力。
“晶圓級晶片本質上也是採用 Chiplet 方法進行設計,相當於把傳統 Chiplet 的中介層基板放大到了晶圓尺寸,然後在晶圓上整合計算與儲存 Die 等,這就形成了一個晶圓級晶片。”胡楊介紹說,“但是尺寸的變化會帶來一系列計算正規化、系統形態、設計方法學角度的變革,從而使晶圓級晶片不僅僅是一個簡單的 Chiplet 產品。”他指出。
談及開發晶圓級晶片的初衷,他表示,“想要提升叢集算力以及叢集線性度,需要提升單個節點的算力,但從傳統路線上來看,提升單個節點算力只能依靠先進工藝。如何繞開先進工藝來提升算力?以晶圓級晶片為代表的系統級重構就是一種解決方案。”
“國內在先進封裝領域的佈局相對較早,能用來進行晶圓級整合的封裝技術儲備也較為充裕。在研發前期我們與產業鏈進行了很多接觸,發現基礎的‘單點技術’都有較好的儲備,只需要把這些單點技術串聯起來,進行打通適配,那就可以基於國內的產業鏈基礎進行晶圓級整合。”胡楊說道,“藉助晶圓級晶片有望解決當前面臨的算力瓶頸,尤其是在先進工藝遭遇封鎖的背景下,能夠提供一個算力持續有效提升的途徑。此外由於晶圓級晶片的晶粒晶片完全基於成熟的數字計算正規化,對比其他新型計算形態,在軟體程式設計、應用生態上具有天生優勢,有望儘早投入大規模部署與應用。這是我們投身這個領域的初衷。”他補充說。
對比傳統晶片及其組成的算力叢集,晶圓級晶片能夠在單位空間內整合更多單元電路,具有更高的電晶體密度與算力。同時,未經切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成頻寬更高、延時更短的互連結構,相當於透過高效能互連與高密度整合構建了更大的算力節點,在構建算力叢集時,能夠有效提升叢集的運作效率。相同算力下,由晶圓級晶片構建的算力叢集佔地面積對比 GPU 叢集能夠縮小 10-20 倍以上,功耗可降低 30% 以上。
在相同工藝情況下,一般來說,晶片的面積越大、電晶體密度越高,其發熱就越嚴重。針對這種尺寸巨大、電晶體密度極高的晶圓級晶片的散熱問題,胡楊表示,“其整體發熱量要看整合的計算 Die 的數量及功耗。比如,在一個晶圓上整合有 30 顆計算 Die,這種規模的發熱量級採用常規液冷板散熱方式即可應對。”
“現階段的一種解決方案是,晶片上表面採用液冷板,下表面也基於液冷框架,採用異形結構使能之與發熱單元更好的貼合。但若後期整合數量更多或是採用能耗更高的計算 Die,那就需要藉助其他散熱方式,比如相變液冷技術等。”他說道。
目前,半導體晶片行業圍繞散熱的研究大部分都是面向“微觀散熱”,即在單顆晶片的尺度上解決散熱問題。“然而,我們開發的大尺寸晶圓級晶片包括多個發熱點,屬於‘系統級散熱’的範疇。”胡楊指出,“晶片上表面是核心發熱區,晶片背部供電系統也會聚集大量的熱,如何從系統角度把上、下表面的熱量都散出去,這是需要攻克的難題,而這需要跨行業聯合相關熱設計領域的研究人員一起進行攻關。”他補充說。
除此之外,晶圓級晶片的製造也面臨一系列挑戰,比如良率問題,這會導致晶圓級晶片初期的成本較高。在胡楊看來,“這屬於工程與產業化問題。對此,需要有長期投入構建起產業鏈條,將產品從 0 到 1 開發出來,接下來就需要想辦法讓產業鏈條上下游之間的工藝進行相容,提升製造過程中各個環節的良率,最終構建起一套成熟的產業體系。如此一來,前期的 NRE 就分攤到後期的產品中,提升晶圓級晶片的商業可行性。此外,為了進一步提升晶圓級系統的可用性,系統容錯問題也不可忽視。”
從本質上來看,晶圓級晶片其實已經超出了晶片本身的概念,屬於一個複雜整機系統。“從晶片設計、基板設計、整合封裝、高效能供電、高效散熱、系統裝配、伺服器整機乃至定製化機架等各個環節都需要多方合作。以封裝環節為例,這本身就是一個綜合學科,涵蓋工藝、材料、機械、物理等,需要相關學科的合作方一起探討。”他表示。
胡楊坦言,“我現在每天的主要任務就是與產業界打交道,目前我們團隊已經與清微智慧、上海人工智慧實驗室、中芯國際、長電科技、長鑫儲存、中國公司第五十八研究所等多家企業院所建立了緊密的合作伙伴關係。我自己的研究方向是體系架構領域,而晶圓級晶片開發是一個工程性很強的專案,需要對各個領域都有所瞭解,然後將這些領域有機結合起來。”
“晶圓級晶片是算力節點整合密度最高的形態”
據介紹,全球已有兩家公司開發出了晶圓級晶片產品。其中一家是 Cerebras,從 2019 年至今該公司已經推出第三代晶圓級晶片。“Cerebras 公司的技術路線是透過修改晶片光刻流程實現的。晶圓光刻過程中在計算 Die 之間加入連線線,讓 Die 與 Die 互連進而形成整個晶圓級晶片。”胡楊表示,“另外一家是特斯拉,其開發晶圓級晶片(Dojo)的技術路線與 Cerebras 不同,採用了 Chiplet 路線在晶圓尺寸的基板上集成了 25 顆專有的 D1 晶片。”
“很大程度上,英偉達其實也在一步步走向這個趨勢。比如英偉達的 B200,也是採用 Chiplet 方式把兩顆 Die 合封在一起成為一顆大晶片。不難看出,英偉達也認為應該藉助更高密度的算力來提升算力叢集的效率。”他說道。
他進一步解釋說,“常規形態下,叢集算力節點越多,則叢集規模越大,花費在通訊上的開銷就越大,叢集的效率就越低。因此,英偉達 NVL72 透過提升叢集內的節點整合密度(即提高算力密度),在一個機架中集成了遠超常規機架的 GPU 數量,使得叢集的尺寸規模得到控制,效率才能實現進一步提升。”
“這種計算形態是英偉達權衡了良率和成本之後的一種解決方案。若按照英偉達的這種計算形態,想要繼續提升算力密度,最終就會發展成為晶圓級晶片的形態,這也是目前為止算力節點整合密度最高的一種形態。”他表示。
胡楊認為,“相較於當前‘千卡萬卡’級別的算力叢集,晶圓級晶片的這種計算形態能夠大幅提升通訊效率,有希望成為具備最高效率的算力叢集。同時,算力叢集中採用晶圓級晶片對於大模型訓練和推理均能帶來效率提升。”以推理為例,有些場景需要進行分離部署,對通訊效能要求較高,而晶圓級晶片能在這種場景中帶來更好的通訊保障。
談及晶圓級晶片的未來發展趨勢,胡楊表示,“就目前而言,晶圓級晶片主要沿用二維整合的技術路線,所有 Die 在晶圓上都是平鋪的,由於晶圓的面積固定,在固定面積上計算 Die 多,那儲存 Die 就會少,反之亦然。因此,未來將會過渡到三維整合的方式,比如在計算 Die 上堆疊 DRAM,然後再進行晶圓級整合。”
在三維整合的形態下,晶圓級晶片擁有充裕的儲存容量和頻寬,計算密度和儲存密度兩者可以兼得,進而更好地發揮晶圓級晶片高頻寬的優勢。
“另外一方面,也是由於晶圓級晶片的二維整合方式,執行一些比較複雜的通訊演算法,現有的通訊網路難以滿足,要解決這個問題,我認為還需要構建更高效的晶圓級互連拓撲,例如在晶圓上進行光波導整合。”他表示。
聊到 AI 和算力晶片的發展,胡楊提到了硬體彩票(Hardware Lottery,用來描述演算法研發更多地依賴於其與可用軟硬體的相容性,受到現有硬體能力的高度制約)的概念。“很大程度上,目前演算法設計天然受到硬體效能的約束。如果我們不去突破硬體在某一方面的極限,那就沒辦法去幫助孵化更有想象力的演算法。”他指出。比如,基於當前頻寬的極限,研究人員很難設計出一款能夠發揮更高頻寬、更高互連程度的演算法。
“業內整體而言,從事演算法軟體的開發者要遠遠多於硬體開發者,而且相對缺乏軟硬體協同最佳化的經驗。一些軟體開發在硬體效能不足的時候必然會受到硬體效能的制約。因此硬體開發從業者有一個天然驅動力,即要開發更高效能的硬體。”他說道,“開發晶圓級晶片,相當於直接把硬體效能拉到最高,儘量降低硬體約束,讓軟體開發者不會為硬體效能所累,有望開發超越當前 Transformer 的新演算法。”
產業化層面,胡楊表示,“從 2022 年起,我們團隊在尹首一老師的帶領下開始專注於晶圓級晶片研發,短期的目標是希望在明年開發出一款晶圓級晶片樣機;到 2026 年,我們希望能推出具有大算力的晶圓級晶片樣機;到 2027 年,我們期望基於多個大算力晶圓級晶片樣機組成計算叢集,能在上面真正跑一些大模型訓練,以及 AI for Science 等應用,使其與更多實際應用的場景進行結合。除了大模型之外,其他諸如超算等很多領域也迫切需要大算力底座,我們長期目標是解決國內算力瓶頸的挑戰。”他總結道。
參考資料:
1.https://www.sic.tsinghua.edu.cn/info/1014/1816.htm
2.https://dblp.org/pid/43/4685-1.