通訊世界網訊息(CWW)大模型對算力的需求呈指數級增長,促使智算業務飛速發展。以生成式預訓練(GPT)大模型ChatGPT為例,ChatGPT-6的計算量(Flops)相較於GPT-4提升了1444至1936倍,所使用的圖形處理單元(GPU)數量,也從數萬個GPU,提高至百萬個GPU。
因此,人工智慧(AI)下的各類智算應用與業務,要求高速光通訊網路具備大頻寬、低時延與高可靠等特性以支援算力的發展。同時,也需要高速光通訊在組網能力、高速互聯、傳輸時延、可靠傳輸等方面持續革新。
智算時代的兩種叢集組網方式
當前,AI智算中心以單點大叢集為主,即在同一個物理機房實現模型的訓練。而模型規模的擴充套件、算卡數量提升帶來的巨大電力消耗,以及算力碎片化,使得分散式叢集成為另一個重要的選擇,即利用多個物理機房進行模型訓練。此外,目前國產GPU的效能尚與國際先進水平存在一定的差距,因而未來分散式叢集更為重要。上述兩種不同的叢集組網方式,對高速光通訊技術提出了差異化的承載需求。
對於單點叢集,當前資料中心以Spine-leaf(葉脊)網路架構為主,形成Full-mesh(全互聯)拓撲。相較於傳統三層網路架構,葉脊網路對光模組的數量需求顯著增加,尤其是400G、800G,乃至1.6T這類高速光模組。同時,隨著速率的提升,其對光模組封裝工藝的要求也不斷提高,以降低單位元成本與功耗。此外,全光交換技術在單點叢集中可突破電交換在功耗和時延方面的瓶頸,在國外已經開展了商用實踐。谷歌公司基於光路交換(OCS)技術構建了Jupiter資料中心網路,英偉達將OCS引入到Spine、Leaf與AI伺服器之間,為硬體與軟體提供彈性保護。
然而,隨著算力需求的高速增長,未來單點叢集將面臨算力不足的問題,且電力供應也將成為大規模智算建設的瓶頸。例如,OpenAI為訓練ChatGPT-6,需要在美國同一個州部署約10萬張H100 GPU,每張H100 GPU一年的耗電量約為3.74MW h,而10萬張H100 GPU一年的耗電量就達到了驚人37.4萬MW h。同時,如何將各類資料中心建設導致的碎片化算力充分利用,也成為一大挑戰。此外,受限於當前國產GPU的能力以及GPU生態割裂等問題,國內對多個智算中心間協同計算更加關注,需求也更加迫切。目前業界正在積極探索分散式智算叢集應用,並聚焦更長距離、更大頻寬與更低時延需求。
對於分散式叢集,萬卡、十萬卡,乃至百萬卡級的互聯頻寬往往達到數十P位元級,甚至超百P位元級。因此,分散式叢集間互聯頻寬需要足夠大,以保證算效,並配合頻寬收斂技術減少光層的數量來降低成本。當前,業界透過引入波分複用(WDM)技術、提高單波長速率與擴充套件傳輸波段,實現頻寬增大的目標。例如,谷歌公司目前已完成跨多個數據中心的Gemini Ultra大模型訓練,中國電信在其現網中基於波分複用技術完成了業內首例超百千米分散式無損智算網現網驗證。同時,也可引入空分複用(SDM)技術,以在物理層面增加傳輸通道,提高傳輸頻寬。
基於此,本文從單點叢集與分散式叢集出發,介紹了兩種叢集方式的關鍵技術、發展現狀與應用例項,並結合中國電信自身的需求,對智算時代的高速光通訊技術進行展望。
面向單點叢集的資料中心內部(DCN)光通訊技術
高速短距光模組
當前,高速光模組電介面單通道100G SerDes(序列器/解串器)速率技術已成熟,配合100G與200G的光口速率,可分別應用於400G與800G短距光模組。對於1.6T的短距光模組,可採用200G SerDes技術,配合200G光口速率實現。目前來看,電介面單通道200G SerDes技術預計於2025年啟動研究。高速光模組標準進展情況如表1所示,從標準化角度來看,目前部分標準組織的800G光模組相關標準已基本完成,如IPEC(國際光電委員會)與IEEE(電氣電子工程師學會)標準協會等,而1.6T的光模組相關標準正處於研究階段。
表1高速光模組標準進展情況
高速封裝工藝
對於單點叢集,能耗與成本一直是關注的焦點。其中,高速光模組的封裝技術在近期也呈現多元化演進趨勢,尤其是光模組速率的持續提升,對功耗控制、單位元傳輸成本最佳化、傳輸時延降低等方面提出了更高的要求。
對於400G、800G乃至1.6T光模組而言,線性驅動可插拔光模組(LPO)和線性接收光模組(LRO)成為低功耗與低時延的方案。標準光模組、LPO封裝、LRO封裝對比如圖1所示,標準封裝的光模組通常集成了數字訊號處理(DSP)晶片,而LPO與LRO光模組則將DSP晶片移至裝置側。其中,LRO光模組僅在發端部署DSP晶片,接收端採用線性接收的方式,雖然這種光模組的封裝形態不如LPO降低的功耗與成本多,但與傳統包含完全重定時的模組相比有在一定程度的降低。需要指出的是,LPO光模組由於無DSP晶片,在互操作方面仍然存在挑戰。目前,業界有11家企業聯合成立了LPO-MSA,於2024年第三季度完成LPO系列標準。對於3.2T甚至更高速率的光模組而言,共封裝光學(CPO)或為主流封裝形態。相較於傳統可插拔模組,CPO模組的功耗更低、每路的速率更高、電路衰耗更低,有利於進一步提升頻寬,且整合度高,降成本的潛力較大。
圖1標準光模組、LPO封裝、LRO封裝對比
注:中英文對照如下,FEC(前向糾錯)、DSP(數字訊號處理)、CDR(時鐘資料恢復)、
DRV(驅動器)、TIA(跨阻放大器)、TOSA(光發射元件)、ROSA(光接收元件)。
在100G SerDes速率下,LPO與LRO技術可以有效降低成本與功耗,但面向200G SerDes速率下的LPO技術,業界觀點仍有一定的分歧。在今年OFC(光纖通訊大會)上,業界專家學者展開了激烈的討論:Macom與Arista對LPO在200G SerDes下的應用持積極態度,而華為、Meta與谷歌等公司考慮到高速SerDes的鏈路噪聲與劣化等,認為LPO在200G SerDes時代應該引入CDR,並採用傳統的DSP方案以提高效能。總體來看,LPO與LRO在100G SerDes時代的優勢已得到業界的認可,而面向更高速率的DCN互聯,還有待進一步探究;而CPO技術因其光電共封裝的特性,更加適用於高速互聯場景。因此,面向下一代更高速的DCN場景,CPO或將成為一個具備優勢的技術方案;而對於可插拔性與模組成本敏感的短距離場景而言,LPO或將成為未來演進趨勢。
光路交換(OCS)技術
單點叢集的另一個關鍵技術是OCS,近些年因被谷歌大力推動在資料中心內應用而受到廣泛關注。相較於傳統的電交換,OCS技術省去了“光-電-光”這一過程,降低了傳輸的時延與功耗,並具備全光透明的特性。
目前,OCS產品有多種實現方式,主流的如壓電陶瓷方案、微電機系統(MEMS)方案以及矽基液晶(LCoS)方案等。壓電陶瓷方案採用壓電陶瓷材料帶動準直器旋轉,在空間直接耦合對準(“針尖對麥芒”),實現任意埠光路切換,目前矩陣規模最大可實現576×576,基於壓電陶瓷方案的OCS產品具有光開關矩陣規模特別大、插回損超低、切換時間短等特點;MEMS方案採用微型鏡片在二維/三維方向轉動,對輸入訊號進行反射,從而實現任意埠光路切換,目前矩陣規模最大可實現320×320,基於MEMS方案的OCS產品具有功耗低、時延低的特點,但切換時間長、校準時間長且成本和插損較高;其他光開關方案諸如矽基液晶方案、液晶光開關、二氧化矽平面光波導(Silica PLC)、熱光開關、電光開關等也可實現OCS產品,基於矽基液晶技術的OCS產品可靠性高,切換時間短(200ms以內),但成本較高,而基於其他光開關方案的OCS產品效能仍需進一步驗證。
OCS技術在資料中心的典型應用有兩種:一種是谷歌將Spine層傳統電交換機用OCS代替,另一種是英偉達在Spine、Leaf與AI伺服器之間加入OCS。對於前者,谷歌進一步引入了波分複用技術,並在鏈路中加入了環形器,實現在單根光纖上的速率翻倍;對於後者,OCS技術的引入主要透過控制器構建全新物理拓撲,對硬體故障和軟體故障提供彈性修復,並實現物理層裝置之間的應用隔離。
總體來說,OCS技術未來將向兩個方向發展。一是隨著資料中心內部規模的不斷增長,時延、功耗等要求會不斷提升。OCS因其具有全光交換、光層透明等特徵,將向著大埠、低切換時間與低功耗演進,以配合代替Spine層,形成無需“光-電-光”全過程、任意速率/格式/波長的全光交換。同時,繼續下沉至Leaf層,需要更低的切換時間、更低的成本與更少的埠數,以提升系統的效能與效果。二是隨著資料中心規模的增大,線路的故障率也會有一定的提升,OCS可部署在資料中心多層之間,並透過控制器構建全新的拓撲,以實現物理層裝置的應用隔離,提高大規模資料中心的可靠性。
面向分散式叢集的資料中心之間光通訊技術
大容量波分(WDM)傳輸技術
分散式叢集對頻寬(容量)的需求日益增加,尤其是未來萬卡,甚至十萬卡級別的智算中心間互聯。目前通常採用波分複用技術實現傳輸容量的提升,包括提高單波長速率與擴充套件傳輸波段。
對於單波長速率的提升,當前單波長400Gbit/s已開始商用部署,單波長800Gbit/s還處於發展階段。按照單波長800Gbit/s相干光模組的規格來劃分,可分為兩種:一種是基於90GBaud左右的短距離800G模組,採用機率成型的雙偏振64維正交幅度調製(PS-PM-64QAM),現網一般覆蓋資料中心光互聯;另一種是基於130GBaud左右的城域800G模組,採用機率成型的雙偏振16維正交幅度調製(PS-PM-16QAM)。其中,第二種800G模組可透過配置軟體引數,實現覆蓋資料中心應用的單波長1.2Tbit/s。
對於傳輸波段的擴充套件,當前擴充套件C波段與擴充套件L波段技術已經開始商用部署,且傳輸的波段範圍可高達12THz,結合單波長400Gbit/s技術,可實現單根光纖32Tbit/s的容量。面向未來,隨著頻寬需求的持續提升,S波段將是下一代波段擴充套件的熱點方向。然而,S波段的光纖放大器(如摻銩光纖放大器、TDFA)、收發光器件還處於準備階段。同時,“C+L+S”波段面臨更加嚴重的受激拉曼散射效應,因此需要進行深度的功率最佳化,提高多波段的傳輸效能。此外,系統級的聯合最佳化也是下一代多波段傳輸的核心難點,包括入纖功率最佳化與預載入技術的引入,以實現最大的鏈路吞吐量。
對於未來的分散式叢集,考慮智算中心內單算卡的頻寬為200Gbit/s,那麼一千卡、一萬卡與兩萬卡的互聯頻寬分別為100Tbit/s、1Pbit/s與2Pbit/s,不同配置下所需的光層數量如表2所示。需要說明的是,這裡的千卡互聯是指收發兩端各500卡,萬卡與兩萬卡同理;分析僅為體現光層配置對光層數量與成本的影響,並未考慮頻寬收斂技術,實際上資料中心會採用頻寬收斂技術降低成本。在系統配置上,考慮400G採用PM-QPSK調製、800G採用PS-PM-64QAM與PS-PM-16QAM兩種調製、1.2T採用PS-PM-64QAM調製,C波段、L波段、S波段與U波段譜寬均為6THz。不難發現,最大頻寬越大,所需的光層數量越少。
表2 不同配置下資料中心叢集所需的光層數量
現以400G“C+L”與800G“C+L”(16-QAM)方案為例,詳細計算兩種方案的成本。假設一塊400G OTU(光轉換單元)的成本為1,一塊800G OTU的成本約為1.2,“C+L”的ROADM(可重構光分插複用)、OTM(光終端複用)電子架與光放等其他光層與電層裝置成本一致。考慮系統配置為4個跨段、兩套OTM與ROADM、三套光放,則一套400G“C+L”與一套800G“C+L”的成本比值約為1﹕1.16。因此,在傳輸頻寬相同的情況下,對於一萬卡與兩萬卡互聯,800G“C+L”的成本僅為400G“C+L”的58%與58.9%。由此可見,提高系統最大頻寬不僅能有效降低光層數量,還可以進一步降低整個系統的成本。
高速相干光模組技術
高速光通訊系統需要高效能光模組的支援,相干光模組的發展情況如圖2所示。當前,相干光模組的波特率已實現130GBaud,正在加速向20 0GBaud演進。對於130GBaud,目前大多數主流廠商均可實現。對於200GBaud,預計基於3nm工藝採用約190GBaud PM-PS-16QAM實現單波長800Gbit/s DSP晶片,有望覆蓋城域或長距離應用場景;或者基於2nm工藝採用約240GBaud~270GBaud PM-QPSK實現單波長800Gbit/s DSP晶片,有望覆蓋長距離應用場景。
圖2 相干光模組的發展情況
目前,800G相干光模組存在可插拔與固定兩種形態;1.2T相干光模組僅有固定形態,可插拔產品目前業界沒有明確的方向;對於1.6T相干光模組,預計2024年底固定形態產品將釋出,可插拔形態產品在2025年或之後釋出。
在相干光模組的光晶片材料方面,目前主流的材料有薄膜鈮酸鋰、銦磷與矽光三種。三種材料因特性的不同,在選擇上也有區別,光晶片材料特性對比如表3所示。矽光材料可支援“C+L”波段工作,成本低且整合度高,因而成為目前可插拔模組的主流選擇,但面向下一代超200GBaud仍存在技術挑戰。因此,應考慮採用具有大頻寬優勢的薄膜鈮酸鋰材料,推動長距離骨幹網以及超高速傳輸應用。然而,受限於材料的特性,薄膜鈮酸鋰僅可用於調製。而銦磷材料的理論調製頻寬比矽光更大,模組出光功率也更高,具備更好的傳輸效能;但其封裝較為複雜,且單晶片僅支援單波段工作。總體來說,需綜合考慮應用場景、材料特性、成本與整合度等因素,選擇合適的技術方案。
表3 相干光模組的光晶片材料特性對比
未來,相干光模組將向著高整合度、小型化、低功耗的方向發展,產業各方需進一步最佳化材料的效能、模組的設計以及與DSP晶片的適配等。
新型光纖技術
除了透過波分複用技術提高傳輸頻寬外,也可以採用新型光纖技術在物理上提高傳輸頻寬或降低傳輸時延。其中,以多芯光纖與少模光纖為基礎的空分複用技術可以透過增加傳輸通道的密度,實現傳輸頻寬的翻倍。此外,以空氣為介質的空芯光纖具有超低傳輸時延、超低非線性效應和超低損耗等特性,延遲相對於普通單模光纖可降低約30%;在相同時延下,可實現的最大覆蓋範圍提升近46%。目前,國際上已研製出最低0.1dB/km衰耗的空芯光纖,並且損耗在持續降低。
2024年,中國電信在杭州智算中心和義橋網際網路資料中心之間完成空芯光纜現網部署,標誌著空芯光纖具備實際應用的巨大潛力。基於現網部署的20km空芯光纖,實現了100.4Tbit/s的訊號實時傳輸,容量距離積達到了2008Tbit/s·km。在光纖鏈路方面,實現超10km空芯光纖連續拉絲長度,並在擴充套件C與擴充套件L波段上實現最低0.6dB/km的衰減係數。在光纖接續方面,基於梯度放大斜切最佳化技術,實現單模光纖與空芯光纖單點連線損耗0.25dB、回損小於50dB的高效能連線。在實際部署方面,考慮到空芯光纖的實際結構,中國電信提出了三種防水方案,並解決了無法使用加強芯牽引穿管的問題。最終,在擴充套件C波段和擴充套件L波段分別傳輸41個單波1.2Tbit/s與64個單波800Gbit/s。
未來,應進一步提升空芯光纖製備工藝,降低損耗與成本,並深入研究部署運維方案,如快速便捷熔接、熔接損耗檢測、斷點檢測等,以加速空芯光纖的商用部署。
中國電信面向智算時代的光通訊新技術應用探索
400G/800G現網混合速率傳輸驗證
面向城域以及長距離應用場景,中國電信於2024年在長江中下游地區的ROADM網路,開展了業界首個單波長400G/800G混合速率傳輸系統現網試點,並基於擴充套件C波段與擴充套件L波段12THz譜寬,實現了最大傳輸容量64Tbit/s、最長傳輸距離超1200km的無電中繼傳輸,證實了混合速率傳輸的可行性。
目前,400G技術已在現網商用部署,預計其生命週期較長。同時,800G技術也在不斷發展之中,針對“長三角”“京津冀”與“粵港澳”等流量需求較大的熱點區域,開通800G波長,並與400G骨幹網共用光層,進一步降低了建網的成本,僅需在現有的網路上增加800G板卡即可實現。若400G與800G採用相同符號速率,甚至只需要在軟體層面修改收發板卡的調製格式等引數,即可實現速率的切換,大大降低了實現難度。
此次400G/800G混合速率現網試點可以加速推進800G商用部署,進一步提高網路吞吐量和利用率,減少裝置數量及降低能耗,提升網路資源的利用效率,並可面向熱點區域打造差異化服務。
“S+C+L”超120Tbit/s實時傳輸
面向短距離智算中心互聯場景,2024年中國電信基於“S+C+L”波段實現了單纖超120Tbit/s實時傳輸紀錄,最高的單波長速率可達1.2Tbit/s;S波段譜寬為5THz,C波段與L波段的譜寬均為6THz,系統總譜寬達到了17THz。中國電信“S+C+L”實時超120Tbit/s實驗設定如圖3所示。
圖3 中國電信“S+C+L”實時超120Tbit/s實驗設定
實驗針對每個波段都採用了差異化的調製格式、符號速率、通道間隔,以最大化系統的頻譜效率。此外,針對多波段系統的波長相關損耗與功率轉移效應,採用了多波段系統填充波與自動功率均衡技術。對於S波段的訊號放大,採用了摻銩光纖放大器,並針對放大器的噪聲與增益特性,系統性地調節鐳射器出光功率等引數,最佳化鏈路的光信噪比(OSNR)效能。最終,基於大有效面積(150μm2)的G.654光纖,實現了75km的傳輸,覆蓋資料中心互聯應用場景。
總結與展望
智算時代下的高速光通訊技術已進入飛速發展階段,各類新技術的應用正以前所未有的速度改變著時代的程序。一方面,高速光通訊技術將貫通智算叢集間、智算中心間與智算中心內組網;另一方面,高速光通訊技術將滲透進系統內、晶片間與晶片內。
面向單點叢集的資料中心內部光通訊技術,1.6T超高速光模組配合先進的封裝工藝,可實現大頻寬、低成本與低功耗的DCN互聯;OCS技術的引入,突破傳統電交換功耗與時延的瓶頸,為DCN網路架構提供了全新的技術路徑。
面向分散式叢集的資料中心之間光通訊技術,800G/1.2T超高單波速率配合不斷擴充套件的傳輸波段,可大幅減少DCI互聯光層數量並降低成本;空分複用技術的引入在物理層面成倍地提高傳輸容量;空芯光纖的使用,為DCI提供全新的思路。
面向未來,高速光通訊產業各方將不斷革新,催生各類顛覆性技術,助力構建資料中心全新網路架構,並在AI時代,為大模型的高效訓練提供堅實的承載底座,推動未來產業的創新協同發展。