時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

蘋果和英偉達合作新的推測解碼方法,可將文字生成速度提升2.7倍

2024-12-21 19:43:18

眾所周知,對於自迴歸模型而言,記憶體頻寬一直是制約推理效能的關鍵瓶頸。當模型生成文字時,它需要反覆執行前向傳播來預測每個 token,這個過程不僅需要大量的計算資源,更重要的是會頻繁訪問記憶體來獲取模型權重和中間狀態。這種記憶體密集型的特性導致了較高的延遲,影響使用者體驗。

去年,學界興起了一種稱為推測解碼(Speculative Decoding)的技術用以緩解這一問題。這種方法使用較小的“草稿”模型來預測可能的未來 token 序列,再由主模型驗證,從而實現並行化生成,提高推理效率。

圖丨自迴歸解碼和推測解碼(來源:arXiv)

今年初,提出了一種新的推測解碼方法 Recurrent Drafter (ReDrafter),對原有方法進行了改進。透過將 RNN 草稿模型與動態樹注意力機制相結合,ReDrafter 在每個生成步驟中最多可接受 3.5 個 token,超越了此前方法的水平。

最近,蘋果又宣佈與展開深度技術合作,將其創新的 ReDrafter 推測解碼技術整合到英偉達 TensorRT-LLM 推理加速框架中。這項合作將幫助開發者在英偉達 GPU 上實現更高效的 LLM 推理效能。

ReDrafter 的核心是一個基於(RNN)的草稿模型。與先前的方法(如 Medusa)類似,它使用 Transformer 最後一層的輸出作為輸入。創新之處在於,它還將歷史 token 的嵌入作為迴圈輸入提供給草稿頭。

當 LLM 生成一個 token(比如“quiet”)時,草稿模型會獲取這個 token 的嵌入向量 et 和 LLM 最後一層的輸出 h,然後透過 RNN 更新隱藏狀態:st = f(Ust-1 + W et + b)。更新後的狀態 gt = [st, h] 被用來預測下一個 token。這種遞迴設計讓模型能夠維護動態的上下文表示,大大提升了預測準確性。

圖丨草稿模型以 LLM 的最後隱藏狀態 h 作為輸入來預測接下來的幾個標記。(來源:arXiv)

另一方面,ReDrafter 使用束搜尋來探索多個可能的序列延續。為了提高效率,它引入了動態樹注意力演算法來處理候選序列中的共同字首。

來看一個具體例子:當生成多個候選序列時,比如“morning sipping coffee and watching”和“morning sipping coffee on her”,這些序列往往共享相同的字首。傳統方法會對每個序列獨立計算,而 ReDrafter 透過動態構建字首樹來合併重複計算。系統使用張量運算實現了高效的字首檢測和合並處理,在實踐中可以減少 30%-60% 的計算量。

此外,為了提高草稿模型的預測質量,ReDrafter 採用了一種新的知識蒸餾訓練方法。系統會直接學習 LLM 的 token 生成分佈,而不是簡單地擬合真實序列。訓練目標被定義為最小化 LLM 和草稿模型輸出分佈之間的 KL 散度:min(pdraft) KL(pllm(y1:T)|pdraft(y1:T))。

在每個訓練位置 t,系統從 LLM 取樣未來 T 個 token,並最佳化經驗損失:min(pdraft) Σt −log pdraft(ŷt+1:t+T|y1:t)。這種方法確保了草稿模型能夠更好地模仿 LLM 的行為。

研究結果顯示,在 MT-Bench 基準測試中,ReDrafter 在 Vicuna 7B 和 13B 模型上實現了 2.8 倍的加速。且 ReDrafter 在每個生成步驟平均可接受 4.2 個 token,這意味著相比傳統的每步生成一個 token 的方式,ReDrafter 顯著提升了並行度。在大規模批處理場景下,系統的最高吞吐量可達到每秒 1636 個 token。

並且,在不同的硬體平臺上,ReDrafter 都展現出良好的適應性。在搭載 M2 Ultra 的系統上,13B 引數量的模型達到了 1.94 倍的加速比。即使在計算資源相對有限的 M1 Max 上,系統仍然實現了 1.37 倍的效能提升。

為了讓 ReDrafter 的效能優勢更好地在 TensorRT-LLM 上發揮,英偉達的工程團隊進行了一系列創新。其最重要的改進是將驗證邏輯直接整合到引擎內部,而不是依賴執行時處理。這種設計不僅降低了系統開銷,還為核心選擇和排程最佳化提供了更大的自由度。

在批處理方面,研究團隊採用了一種創新的 inflight-batching(IFB)策略。當處理混合的請求流時,系統會智慧地將上下文階段和生成階段的請求分開處理,每類請求使用專門最佳化的計算流水線。這種設計在保持低延遲的同時,顯著提升了 GPU 利用率。

圖丨 ReDrafter 的 TensorRT-LLM 引擎的線上批處理相容計算工作流程(來源:英偉達)

尤其值得一提的是系統對字首樹計算的最佳化。英偉達開發了專門的運算元來處理動態樹結構,這些運算元經過深度最佳化,能充分利用 Tensor Core 等硬體特性。同時,透過精心設計的記憶體管理策略,系統能夠高效處理不同長度的序列,減少記憶體碎片。

在實際部署測試中,研究團隊使用一個擁有數百億引數的生成模型進行了全面評估。在貪婪解碼模式下,系統實現了 2.7 倍的生成速度提升。這種效能改進不僅降低了使用者感知延遲,還減少了所需的 GPU 數量和能源消耗。

圖丨使用英偉達 TensorRT-LLM 和 ReDrafter 與自迴歸相比,每秒令牌速度加快。(來源:蘋果)

這種效能改進將直接轉化為實際價值:它能最大限度地減少使用者延遲並減少所需的硬體數量。英偉達在其部落格中強調,這次合作顯著增強了 TensorRT-LLM 框架的能力。透過提供標準化的介面和最佳化的實現,使得開發者能夠更容易地部署複雜的語言模型。

ReDrafter 此前已在 GitHub 開源,專案地址:https://github.com/apple/ml-recurrent-drafter。

參考資料:

1.https://machinelearning.apple.com/research/redrafter-nvidia-tensorrt-llm

2.https://arxiv.org//2403.09919v5

3.https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/

排版:劉雅坤

熱門資訊
  • 簽約攬金2856億 成交飛機1195架 | 2024-11-18 16:19:20
  • 港媒:C919工廠或對公眾開放參觀 | 2024-11-18 16:25:48
  • 超聲波指紋市場發展迅速,光學龍頭歐菲光或將受益 | 2024-11-18 16:25:52
  • 破天荒!這個硬體品類,“不愛硬體”的騰訊卻拿下了第一! | 2024-11-18 16:30:13
  • 美專家:美國在量子通訊方面落後於中國 | 2024-11-18 16:41:30
  • 中國聯通總經理簡勤:2030年,全球通用算力增長10倍,智算算力增長千倍 | 2024-11-18 16:44:21
  • 舒達iComfort智慧床體驗:智慧領航,重塑睡眠體驗 | 2024-11-18 16:53:49
  • NVIDIA Blackwell晶片被曝過熱致交付延遲!回應稱“客戶還在搶” | 2024-11-18 17:06:35
  • 訊息稱華為將推出 MatePad Pro 13.2 2025 款,Mate 70 同款晶片 | 2024-11-18 17:10:25
  • 停止光刻機售後服務?ASML正式宣佈,外媒:“彎道超車”沒戲了 | 2024-11-18 17:23:47
  • NASA準備緊急撤離:龍飛船上加座位!國際空間站問題比想象嚴重 | 2024-11-18 17:23:51
  • 8800MT/s!Intel推出全新MRDIMM高速記憶體 | 2024-11-18 17:27:00
  • 僅199元!米家多功能電蒸鍋N1圖賞 | 2024-11-18 17:33:07
  • 僅次於AirPods!華為拿下第二,耳機市場正在加速洗牌 | 2024-11-18 17:33:10
  • 孫學良開發雙陰離子基鈉超離子導體,為全固態鈉離子電池開闢途徑 | 2024-11-18 17:39:49
  • 谷歌利用數百萬部安卓手機繪製電離層地圖,有望提升GPS定位精度 | 2024-11-18 17:43:42
  • 玄派玄極星 16 筆記本亮相:i7-13620H + RTX 4060,售價 7499 元 | 2024-11-18 17:48:01
  • 訊息稱華為 FreeBuds Pro 4 無線耳機傳輸速率升級至 2.3Mbps | 2024-11-18 17:48:05
  • 輕薄、續航、效能全都有!聯想ThinkPad X1 Carbon Aura AI 2025開啟預約 | 2024-11-18 17:58:42
  • 黑峽谷磁軸鍵盤 C2 釋出:凱華定製波粒軸,首發價 299 元 | 2024-11-18 17:58:46
  • 華擎產品線擴張至電源領域:四大系列,旗艦型號搭載碳化矽二極體 | 2024-11-18 17:58:47
  • TCL李東生:目前還沒有哪樣技術能在大屏顯示上取代LCD | 2024-11-18 17:58:48
  • 銀白戰甲!華碩ROG STRIX X870-A GAMING WIFI吹雪主機板圖賞 | 2024-11-18 18:09:51
  • 嫦娥六號才合作,嫦娥八號又來!中國將把巴鐵35公斤月球車送上去 | 2024-11-18 18:12:42
  • 影馳 GEFORCE RTX 4070Ti SUPER 金屬大師 Plus OC 圖賞 | 2024-11-18 18:17:04
  • 影馳 GeForce RTX 4070Ti SUPER 金屬大師 Plus OC 評測 | 2024-11-18 18:17:08
  • 抗刮防指紋,Optitune 奈米塗層將用於超百萬檯筆記本/平板電腦 | 2024-11-18 18:17:10
  • 交易額達2856億元,中國航展飛出航空市場新高度 | 2024-11-18 18:22:50
  • 漏氣問題無法解決,國際空間站面臨“最緊迫的危機” | 2024-11-18 18:22:55
  • 英特爾 Arrow Lake-U 型號規劃曝光:上代處理器小幅改進款 | 2024-11-18 18:46:54
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們