15000卡！上海電信打造全國最大運營商級智算中心

作者／ IT時報記者郝俊慧錢立富

編輯／孫妍

上海“模都”建設迎來一波澎湃動力。

1月22日，新年伊始，中國電信上海公司（以下簡稱“上海電信”）宣佈，在上海點亮“大規模算力叢集暨人工智慧公共算力服務平臺”。

“這將是全國規模最大的運營商級智算中心。”上海電信總經理龔勃表示，當天點亮的算力叢集規模達15000卡，其中包括全國首個單池萬卡規模的國產液冷算力叢集。

《IT時報》記者獨家獲悉，該算力叢集採用自主創新AI晶片，且在技術架構上實現了突破，全部採用液冷散熱方案，是目前規模最大、單池訓練能力最高的國產液冷智算中心。

同日，上海電信釋出一系列人工智慧公共算力服務產品。2022年7月，上海電信在全國電信運營商中率先發布公共算力服務，如今時隔一年半，隨著大模型風暴的興起，全社會算力需求進一步井噴，上海電信再次推出一系列“人工智慧公共算力服務產品”，為全市人工智慧企業提供一站式服務，降低算力使用的門檻和成本，提高算力資源的可及性和利用效率。

此次產品和服務更新，既是上海電信進一步提供普惠算力的重要舉措，也是上海電信在公共算力服務領域發展的重要里程碑。

隨著全球一步邁入AI時代，上海正在書寫新的“模都”進化史，作為上海新一代智慧資訊基礎設施建設的主力軍，繼打造“全城上雲”的“智雲上海”之後，上海電信為城市AI更新迭代和大模型產業生態升級打造的多元一體化智算承載底座，進一步推動上海向“全城AI”進化。

釋出會由上海電信聯合徐彙區政府共同舉行。當日，“雙萬兆接入暨一跳入算服務”在徐彙區大模型專業孵化和加速載體——“模速空間”正式啟用。

01 國產萬卡液冷算力叢集多項創新打破算力焦慮

當算力成為國力之爭的核心資源，國產算力的技術和能力突破被大眾所矚目。

“我們希望算力不再被卡脖子。”釋出會上，復旦大學附屬中山醫院信智部主任助理兼規劃與管理中心主任錢琨透露，受困於英偉達晶片限售，目前很多基於國外算力和生態的大模型無法在醫院適配落地，這讓她對上海電信當天點亮的國產萬卡大規模算力叢集非常期待。

釋出會上透露的訊息是，中國電信將在上海規劃建設可支援萬億引數大模型訓練的智算中心。其中，單池新建國產算力達10000卡，是首個支援單池萬卡的國產超大規模算力液冷叢集。

此輪由ChatGPT引發的大模型風暴，與往常人工智慧訓練模式最大的不同在於，超海量引數資料的平行計算，也就是將多個伺服器連線成一臺“超級計算機”，甚至要在算力卡間完成直聯。然而，在萬卡級別的算力叢集上同時訓練和推理資料，對軟體規劃、資源排程挑戰非常大，尤其是發展時日尚短的國產大規模算力叢集和智算中心，並沒有太多經驗可循。

“此次中國電信打造的萬卡規模國產算力叢集，採用網路中置、算力分層的‘魔方’型網路佈局，實現了單池萬卡叢集的架構創新，而且全部採用液冷散熱，是目前全國規模最大的國產液冷機房。”一位接近電信的人士告訴《IT時報》記者，無論是算力叢集架構，還是機房建設水平，該國產萬卡液冷智算中心，在多項技術指標和創新突破方面都是全國第一。

02 普惠算力 “隨時用用得起”

2023年3月，此輪人工智慧“剛起蓬頭”，張家慶和合作夥伴便毅然離職，奔入大模型創業浪潮中，創辦開放傳神公司，致力於大模型生態社群建設，為大模型在垂直行業的應用提供工具平臺和解決方案。

“創業不久，我們就發現算力成本真的很高。”如今擔任開放傳神聯合創始人的張家慶告訴《IT時報》記者，為了更快使用模型構建應用，最初開放傳神采用了AWS海外的雲算力和國內某大廠算力，但成本始終居高不下，“短期來看，算力成本在整個大模型產業鏈中仍是瓶頸”。

構建普惠的算力體系，不僅要讓算力像水電一樣隨取隨用，而且要讓全社會都“用得起”“用得上”，是近兩年來從國家到地方接連打造大規模智算中心，啟動東數西算戰略，並出臺一系列算力優惠政策的目標所在。

2022年，上海電信率先宣佈向社會提供公共算力服務，成為國內首個推出此服務的電信運營商。經過一年半的持續建設和升級，此次釋出會上，上海電信再次宣佈推出基於中國電信“天翼雲自研CloudOS4.0底座”的人工智慧公共算力服務平臺及一系列產品，包括智算產品、彈性算網、算力排程平臺和行業大模型等，從算力供給、算力輸送、算力排程到模型訓練及推理應用，為大模型企業提供一站式服務。透過在雲端租賃算力，企業大幅減少了本地IT裝置投入，降低了使用算力的門檻。

“可見即可用，可用即可得。”據上海電信資深經理張慷現場介紹，此次推出的算力產品均已是成熟的商用產品，包括標準化套餐和定製化開發兩種，客戶既可以線上自行下單，亦可以線下諮詢後按需訂購，並面向全市各類人工智慧生態企業開售。

此外，大規模算力建設的背後，存在算力資源供需不均衡，利用率不高，不同架構、廠商、資源池算力難匹配等問題。

為了讓企業獲得性價比更高的算力資源，此次推出的“息壤——全國算力一體化排程平臺”，可以同時聯通全國六大雲商87根中繼節點，覆蓋頭部雲商在全國的所有資源池。

從現場演示可見，當用戶提出一個雲渲染的算力需求時，平臺顯示，天翼雲雅安、天翼雲揚州等地的資源池有不同算力配置和價格，使用者可以根據時延和價格按需購買。

在平臺層，透過中國電信天翼雲大模型的一站式智算服務平臺“慧聚”，將大模型開發訓練過程中的關鍵流程、複雜技術和寶貴實踐經驗進行總結和抽取，構建一站式全鏈路的大模型生產應用流水線，大幅降低大模型訓練、微調、部署、推理的門檻，讓客戶能夠更專注於模型升級和應用落地。

“我們接觸過很多算力服務商，但能夠提供一站式服務的供應商非常少，上海電信在這方面有整體優勢。”張家慶告訴記者，2023年9月，開放傳神入駐上海市徐彙區重點打造的全國首個大模型專業孵化和加速載體“模速空間”，並陸續將服務從國外雲商遷移至上海電信的智算中心，“在不改變原先計算負載的情況下，整體成本降低了60%”。

03 彈性算網百公里“一跳入算”

除了充沛的算力和公共服務平臺，要想算力“無所不在”，成為像水、電一樣的普惠大眾、隨取隨用的公共基礎資源和服務，還必須要有“無所不達”的算網，滿足不同物件對算力的多元化需求，比如在精度、時延、頻寬方面存在的差異性。

隨著大模型引數的指數級上升，人工智慧企業對於網路的要求越來越高，“超大規模、超高頻寬、超強可靠、超低時延和丟包率，”一位大模型專家告訴記者，大模型時代，電信運營商面臨更為嚴苛的網路要求，但出於成本考量，企業又不可能為此承擔過高的網路頻寬成本，對彈性算力網路的需求尤為迫切。

開放傳神就曾遇到過這樣的窘境，作為一家大模型創業公司，它有時候會集中上傳一批模型和資料，併為客戶提供模型託管服務，但由於資料量巨大，這個過程往往需要數天時間。

“最近，我們正在和上海電信測試一跳入算，預計未來傳輸時間可從以天為單位縮短為以小時為單位，”張家慶所言的“一跳入算”，就是上海電信此次重點發布的“彈性算力網路”，不僅大幅提高了大模型訓練效率，而且可以讓大模型企業根據業務實際需求，自由伸縮算力頻寬，降低頻寬成本。

平日裡，彈性算網可為企業提供基礎速率，一旦出現突發性任務、週期性作業急需大頻寬傳輸，當天即可發起動態提速。例如，在100Mbps頻寬下，10TB資料需10天才能完成傳輸，透過“彈性算力網路”升速後，僅需2小時便可完成傳輸，且企業只需支付2小時費用，極大降低了算網使用成本。

“這張彈性算網目前已覆蓋全國31個省市自治區，連線六大雲商，計費最小顆粒度低至1小時，平均可以為使用者降低50%的運營成本。”張慷介紹道。

此外，上海電信基於在全球率先建設的50G-PON全光萬兆城市數字底座，正在逐步打造普惠易用、綠色安全的綜合算力基礎設施體系，並在今年初率先實現了百公里1ms時延的“一跳入算”，也就是說，從上海徐彙區的“模速空間”到臨港中國電信智算中心，入駐企業可在一毫秒內連線到達。

而根據不久前由國家發改委、國家資料局等五部門聯合印發的《關於深入實施“東數西算”工程加快構建全國一體化算力網的實施意見》的要求，1ms時延城市算力網、5ms時延區域算力網、20ms時延跨國家樞紐節點算力網在示範區域內初步實現的時間節點是2025年底，上海再次跑在了全國規劃的前面。

排版／季嘉穎

圖片／上海電信費鋒

來源／《IT時報》公眾號vittimes