今年春節格外晚,立春之後又一週。
本以為到了“律回歲晚冰霜少,春到人間草木知”的時節,沒想到,南方遭遇了雨雪冰凍天氣。春節回家的路,漫長而坎坷。
為了給春晚拉人氣,央視在2月初專門舉行釋出會。關注釋出會人不多,但在影視行業打拼多年的斌哥一眼看到了亮點——今年春晚首次引入VP電影製作。
春晚的VP不是副總裁(Vice President), 而是虛擬製片(Virtual Production)。它用計算機生成影象、實時渲染等技術,將虛擬場景與現實拍攝相結合。“VP電影就是造夢,你知道原來搞VP電影得花多少錢?”
看著斌哥故弄玄虛的神情,筆者知道VP電影一定很貴。斌哥說《阿凡達》是2009年VP電影巔峰之作,成本大約是2.37億美元。“你覺得央視春晚用VP做視覺,能花多少錢?”
筆者一臉茫然。斌哥得意洋洋地說,VP電影需要實時渲染引擎、LED牆、混合虛擬製作,還需要高效能GPU,支援實時光線追蹤技術。“原來這些技術只能靠外國公司,貴得不得了。現在很多中國公司都能支援了。所以春晚才會用VP做視覺,總價不會太貴。中國技術擅長從跟隨到超越。”
看著搞電影的斌哥給筆者這個寫IT的頭頭是道地講GPU,竟一時語塞。“那你知道,做好一臺春晚,需要多少核CPU?” 筆者反問道。
現在輪到斌哥啞口無言了。其實春晚和CPU的歷史,也是中國技術的故事。
CPU都燒焦了
春晚和CPU深度繫結,始於2015年。那一年春晚首次引入紅包互動。那年春晚,人們目光不再只聚焦電視螢幕上五彩斑斕的晚會,而是盯緊手機,搖啊搖,彷彿每個人都在與時間賽跑。
全民搶紅包的熱情帶來了海嘯山崩般巨大流量。除夕當晚20點到凌晨零點48分,互動總量達到110億次。互動峰值達到了每分鐘8.1億次。人們隔著螢幕瓜分喜悅,然而搶紅包的熱情也“燒焦”了伺服器。由於大量使用者在同一時間參與搶紅包,紅包系統出現了短暫宕機。
2018年,春晚紅包迎來了新的合作方。儘管有了前車之鑑,還是沒想到春晚登入實際峰值超過了2017年雙十一的15倍,3倍擴容的伺服器資源依舊不夠。宕機使得部分使用者無法正常登入,紅包功能無法使用。
合作方換了又換,2019年,又一家公司再次挑戰春晚紅包專案。要知道,搶紅包的人每一年都在增加,經計算,當晚需10萬臺伺服器支援春晚互動,其中5萬臺伺服器需要外部採購。雖然這一年,合作方成功地支撐了高達208億次互動,沒有出現明顯的服務中斷,但也付出了巨大投入。
至此,在春晚舞臺上,網際網路企業們輪番登場。雖然紅包互動越來越穩了,但紅包互動保障成本卻居高不下。
以2019年春晚為例,當年合作的網際網路企業額外採購了5萬臺伺服器,根據公開資料,2018年,全球伺服器市場銷售額達到了867.75億美元,中國伺服器市場出貨量達到了330.4萬臺。當時伺服器市場價格在3~5萬之間,所以5萬臺伺服器,大概是15~25億元。
在全球華人的節日裡,網際網路企業都希望呈現最完美的自己,最誘人的獎品和最絲滑的體驗。在大廠日進斗金的日子裡,25億不過是一次昂貴的品牌營銷。時至今日,大家都要打打算盤。畢竟,成本和收益是顛撲不破的商業規律。沒人真的想賠本賺吆喝。
你要當顯眼包啊
網際網路企業給春晚合作打了樣,按理說同行都會按照這個劇本把春晚互動保障演下去,沒想到,2022年的畫風變了。
那一年,直到倒數19天,央視才正式官宣與京東合作。然而,疫情對全球供應鏈造成了嚴重影響。晶片生產和運輸出現延遲;遠端工作、線上教育、電商購物需求暴增,使得伺服器供不應求,京東雲本想大量採購伺服器保障春晚,但卻買不到。
負責人開了幾天會,最終拍板透過“雲艦”排程計算資源保障春晚互動體驗。當年參與春晚保障的春江對筆者說,技術保障團隊拼死拼活、沒日沒夜大戰了19天,辦公室擠滿了行軍床,平均兩天一次壓測做了七輪,直到最終保障成功。
京東人欣喜之餘發現了一個秘密,不買伺服器,也能接住春晚“潑天的流量”。於是僅僅隔了一年,京東又合作春晚了。
2024年1月24日,京東成為總檯春晚獨家互動合作平臺。一回生,兩回熟。春江說,技術團隊靠著肌肉記憶也能把春晚保障做下來,沒想到負責人提出了新要求——在確保觀眾互動體驗的前提下,再完成兩個目標,一是團隊全面應用大模型技術,藉機推進智慧應用的大規模實踐;其次希望透過先進技術把保障工作的IT成本降下來,向技術要效益,相較於虎年春晚,綜合成本要降低50%以上。
換句話說,別家大廠保障春晚是增加伺服器,京東這架勢不僅不增加,還要減少伺服器。筆者不知道當時保障團隊的內心感受,但春江表示,經過這兩年的技術捶打,大家覺得這個目標似乎也是大機率可行的。
看來這一次,京東雲是鐵了心要當顯眼包。
科學地預測未來
1月24日春晚官宣後,京東雲迅速對外亮相了基於大模型的AI指揮官,即春晚保障Agent。這個Agent集成了京東商業大促和保障虎年春晚、湖南衛視跨年晚會相關資料,輸入到保障成本降低50%的目標後,Agent“口吐蓮花”,一下子生成了八、九個策略。
專案備戰組開會精簡了下,確定了五步走戰略:即流量預測、算力壓榨、軍演壓測、智慧監控、安全防護。當然,春晚互動保障涉及的工作非常多,步驟繁雜。這五步和保障工作的IT成本息息相關。
其實春晚保障工作的起點,是“預測”。
預知未來本是一門玄學,但流量預測,則是實打實的科學。正如京東負責智慧運營的張傑所說,即便是春晚潑天的流量,也有跡可循。
使用者即流量,使用者多則流量大。所以,根據大廠APP的活躍使用者數,就能預測出每日流量。但春晚流量預測有點特殊:第一,京東提供了1億實物禮品和30億紅包,可能會吸引新使用者在當晚註冊登入搶禮品;第二,京東設定了紅包裂變玩法,還會再疊加部分新使用者;第三,京東購物券會引發使用者購物下單,這是電商公司的獨有場景;第四,每個使用者從紅包互動到商城購物,場景越多流量計算越複雜。
如果不講究精準,大可估算一個超大流量,計算資源Buff足夠,系統就能抗下洪峰。但這種方式缺點也很明顯,一個字,貴。京東雲要降低保障成本,就得測得準。張傑說,在書畫界,臨摹代表著100%再現原作。事後看,京東雲透過AI模型精準預測流量,最終實現了“臨摹需求”,即計算資源和高併發流量的精準匹配。
從字面上看著“臨摹需求”四個字,筆者不明覺厲......張傑解釋說,首先京東有春晚流量歷史資料以及合作地方臺跨年晚會互動資料;其次,從原始資料中提取有用特徵,包括時間、特殊事件等數千個維度,來提取流量週期性和趨勢性特徵;透過多種模型來學習和驗證,包括時間序列模型、機器學習模型等等;最後,再不斷地驗證模型預測效果並修正。經過反覆打磨,基於Data Science的預測準確率可達95%。
應對流量洪峰從“硬抗”到“智抗”
大多數人都沒用過伺服器,但都用過筆記本。當你開啟很多程式,電腦忽然卡住,散熱風扇聲音驟然加大。這樣的場景似曾相識嗎?
有經驗的人會開啟電腦任務管理,看到CPU數值一路飆升到80%~90%,卡頓原因就找到了。在強制關掉幾個應用程式後,CPU數值降下來,筆記本就恢復了正常運轉。這就是電腦的運算極限。伺服器的極限同樣如此。
想降低春晚保障的IT成本,就要充分利用伺服器的CPU,但利用率太高又會造成系統卡頓。怎麼能實現既要、又要呢?京東雲產品研發部吳亮亮說,用混部。
混部,是指混合部署,就是將離線任務和線上任務部署在一起,兩種任務共享算力,從而提高CPU的整體利用率。“離線任務”是指不需要實時處理的資料,例如大量資料分析、資料探勘、資料備份等。通常,離線任務叢集CPU利用率可達80%。“線上任務”是指需要實時或近實時處理的使用者互動和資料,以提供即時的服務和響應。例如你在電商平臺搜尋、下單、支付等。為了保障穩定性,線上任務計算叢集的CPU利用率通常在20%~30%。
很明顯,兩種任務脾氣不一樣,離線任務“慢性子”,線上任務“急脾氣”。很久以前,京東分別為離線任務和線上任務建立了計算叢集,後來發現這種形式很浪費:比如,618大促時,線上任務計算量驟然增加,需要增加伺服器才能保障使用者下單絲滑。但離線任務的計算還空置著很多伺服器,利用率不高。度過了618大促,線上叢集空閒時候,離線任務很多又使得離線機群算力緊張。
既然如此,乾脆削峰填谷,把離線任務和線上任務混和部署在一起,誰任務重誰就多用伺服器。雖然說起來容易,但把兩種屬性不同的任務部署在統一的計算叢集,它們真的會“打架”。
吳亮亮介紹說,雖然離線任務性子慢,但是搶資源能力很強。兩種任務在一起幹活,線上任務需要計算資源時候得不到,系統就會卡頓、不穩定。比如,春晚紅包互動系統需要計算資源時,離線任務一定要第一時間讓出來。
但如何能保障春晚紅包線上任務搶佔能力呢?首先,它要享有最高優先順序,即紅包等線上任務工作時離線任務不能來搶佔;其次,它還要有特權,即紅包等線上任務需要資源時離線任務要立即退出,不能賴著不走。
為了保障好紅包互動系統,吳亮亮團隊專門開發了一套強悍的演算法,它賦予了線上任務無上特權以及彪悍的爭搶能力,使得搶奪效率提高了80%。
筆者問吳亮亮,這麼厲害的演算法,有名字嗎?他說還沒給它起名字,看它在春晚的表現再說。
有了精準的流量預測和高效的算力騰挪,京東雲應對春晚流量從加伺服器的“硬抗”轉向了依靠智慧排程和壓榨算力的“智抗”。
大模型是幻獸帕魯
接下來就是壓力測試,看看在預估流量壓力下,系統和CPU是否撐得住。
京東雲技術保障部老曲對2022年春晚保障印象最深的,就是七輪壓測。“為了不影響白天業務系統,壓測都在零點開始。工作大平臺擺滿了行軍床,小夥子們幹完活倒頭就睡。我習慣了,多晚都要回家。”
五輪壓測下來,老曲感覺頭重腳輕,便隨身帶了血壓儀。“那你身體今年扛得住嗎?”筆者問他。他眉飛色舞地說,今年只有兩輪壓測,而且今年有大模型。
老曲說,今年有三種大模型來幫忙。
首先是ForceBot全鏈路軍演機器人和故障分析大模型。ForceBot是製造問題的高手,故障分析大模型則是解決問題的高手。ForceBot透過模擬海量使用者搶紅包、購物等行為,製造了大量真實流量,對壓測系統形成高併發壓力。
故障分析大模型則承擔故障診斷、故障分析、故障記錄等工作。在找到根本原因之前,故障大模型可以提出臨時解決方案以緩解問題。例如,增加伺服器資源、最佳化資料庫查詢、調整快取策略等。工程師可以根據資料和故障分析報告,確認故障原因以及整改方案。
第二個登場的是運維大模型。它能覆蓋歷年大促以來上層業務、PaaS元件以及底層基礎資源各場景的故障快速發現和根因定位;能夠保證在春晚紅包活動期間,一旦出現問題分鐘級內發現問題、定位根因及修復,為春晚紅包系統穩定性保駕護航。
第三個是兜底的是安全大模型。今年春晚紅包互動,京東App可以不登入搶紅包,這意味著DDoS攻擊的風險大大增加了。演練期間,系統模擬了春晚紅包抽獎期間不登入抽獎的超大流量。安全大模型則可以提供輔助決策核心資訊,根據系統個性化防禦元件能力,一鍵生成可用的防護意見,大幅提升應急響應速度。
“大模型這麼能幹,你們不擔心下崗嗎?”老曲滿懷信心地搖了搖頭,春晚保障是個超大,超複雜的系統工程。此前大模型都是扮演個人工作助手,在這種專案引入大模型,探索智慧化保障,對提升效率很有幫助。“在咱眼裡,現在的大模型,就是打工的幻獸帕魯。”
中國式超越
雖然挑戰不小,但今年保障工作進行得相當順利。春節前幾天,老曲告訴筆者,保障籌備工作基本結束了,大家靜待春晚。
2024年2月9日20點,龍年春晚拉開序幕。七輪口播,光電交映間,使用者在京東的互動量超552億次,京東雲穩穩地接住了洪峰。大家說,有喜悅,但沒有特別激動,因為一切都在計劃中。
還記得前文說線上任務叢集的CPU利用率通常在20%~30%嗎?透過混部技術,京東雲實現了混部計算叢集 CPU 利用率在春晚活動期間整體60%左右,最大峰值可達85%。
正是憑藉著極端壓榨CPU效能以及各種AI大模型提高效率,在春晚保障這種超級專案中降低成本,如此匪夷所思的目標,還真讓京東雲完成了。不誇張的說,同比2022年至少降低了50%。
在京東雲負責人看來,春晚保障既是“閱兵場”也是“練兵場”。“這次保障成功,不僅有技術升級,也促進了團隊全面向智慧化轉型;不僅推進智慧應用大規模實踐,也鍛鍊了支援人工智慧、大模型數字基礎設施,形成了更全面,更高效,更低成本的大型活動保障體系。”
春江曾經給筆者提過一個詞,叫“中國式超越”。他說就是中國技術擅長從學習到超越,把成本壓下來,還能有利潤空間。這樣,才能在激烈的市場競爭中活下去。
春江的話,讓筆者想起2023年逆勢長虹的新能源汽車和並不為人熟知的液化天然氣載運船。原來,選購一套汽車空氣懸掛需要10萬元左右成本,但中國強悍的供應鏈能力和研發把成本大幅度降低,越來越多國產新能源配置空氣懸掛,對很多外資豪華品牌形成巨大體驗優勢,開始在全球市場突圍。
液化天然氣載運船更是逐步克服了對進口技術依賴,大大降低了生產成本,從極小的全球市場份額,一路佔全球總量的35%,市場份額還在不斷攀升。
其實,在這個變革的年代,中國技術的翅膀依舊在飛一般翱翔。在成本與體驗的天平上,技術人努力尋找著精妙的平衡點。步入2024年,中國科技之舟依舊會遭遇狂風巨浪,但懷揣夢想的航海者,仍將堅定地駛向遠方。
(文中凱哥、春江、張傑、吳亮亮、老曲均為化名)