時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

蘋果和英偉達合作新的推測解碼方法,可將文字生成速度提升2.7倍

2024-12-21 19:43:18

眾所周知,對於自迴歸模型而言,記憶體頻寬一直是制約推理效能的關鍵瓶頸。當模型生成文字時,它需要反覆執行前向傳播來預測每個 token,這個過程不僅需要大量的計算資源,更重要的是會頻繁訪問記憶體來獲取模型權重和中間狀態。這種記憶體密集型的特性導致了較高的延遲,影響使用者體驗。

去年,學界興起了一種稱為推測解碼(Speculative Decoding)的技術用以緩解這一問題。這種方法使用較小的“草稿”模型來預測可能的未來 token 序列,再由主模型驗證,從而實現並行化生成,提高推理效率。

圖丨自迴歸解碼和推測解碼(來源:arXiv)

今年初,提出了一種新的推測解碼方法 Recurrent Drafter (ReDrafter),對原有方法進行了改進。透過將 RNN 草稿模型與動態樹注意力機制相結合,ReDrafter 在每個生成步驟中最多可接受 3.5 個 token,超越了此前方法的水平。

最近,蘋果又宣佈與展開深度技術合作,將其創新的 ReDrafter 推測解碼技術整合到英偉達 TensorRT-LLM 推理加速框架中。這項合作將幫助開發者在英偉達 GPU 上實現更高效的 LLM 推理效能。

ReDrafter 的核心是一個基於(RNN)的草稿模型。與先前的方法(如 Medusa)類似,它使用 Transformer 最後一層的輸出作為輸入。創新之處在於,它還將歷史 token 的嵌入作為迴圈輸入提供給草稿頭。

當 LLM 生成一個 token(比如“quiet”)時,草稿模型會獲取這個 token 的嵌入向量 et 和 LLM 最後一層的輸出 h,然後透過 RNN 更新隱藏狀態:st = f(Ust-1 + W et + b)。更新後的狀態 gt = [st, h] 被用來預測下一個 token。這種遞迴設計讓模型能夠維護動態的上下文表示,大大提升了預測準確性。

圖丨草稿模型以 LLM 的最後隱藏狀態 h 作為輸入來預測接下來的幾個標記。(來源:arXiv)

另一方面,ReDrafter 使用束搜尋來探索多個可能的序列延續。為了提高效率,它引入了動態樹注意力演算法來處理候選序列中的共同字首。

來看一個具體例子:當生成多個候選序列時,比如“morning sipping coffee and watching”和“morning sipping coffee on her”,這些序列往往共享相同的字首。傳統方法會對每個序列獨立計算,而 ReDrafter 透過動態構建字首樹來合併重複計算。系統使用張量運算實現了高效的字首檢測和合並處理,在實踐中可以減少 30%-60% 的計算量。

此外,為了提高草稿模型的預測質量,ReDrafter 採用了一種新的知識蒸餾訓練方法。系統會直接學習 LLM 的 token 生成分佈,而不是簡單地擬合真實序列。訓練目標被定義為最小化 LLM 和草稿模型輸出分佈之間的 KL 散度:min(pdraft) KL(pllm(y1:T)|pdraft(y1:T))。

在每個訓練位置 t,系統從 LLM 取樣未來 T 個 token,並最佳化經驗損失:min(pdraft) Σt −log pdraft(ŷt+1:t+T|y1:t)。這種方法確保了草稿模型能夠更好地模仿 LLM 的行為。

研究結果顯示,在 MT-Bench 基準測試中,ReDrafter 在 Vicuna 7B 和 13B 模型上實現了 2.8 倍的加速。且 ReDrafter 在每個生成步驟平均可接受 4.2 個 token,這意味著相比傳統的每步生成一個 token 的方式,ReDrafter 顯著提升了並行度。在大規模批處理場景下,系統的最高吞吐量可達到每秒 1636 個 token。

並且,在不同的硬體平臺上,ReDrafter 都展現出良好的適應性。在搭載 M2 Ultra 的系統上,13B 引數量的模型達到了 1.94 倍的加速比。即使在計算資源相對有限的 M1 Max 上,系統仍然實現了 1.37 倍的效能提升。

為了讓 ReDrafter 的效能優勢更好地在 TensorRT-LLM 上發揮,英偉達的工程團隊進行了一系列創新。其最重要的改進是將驗證邏輯直接整合到引擎內部,而不是依賴執行時處理。這種設計不僅降低了系統開銷,還為核心選擇和排程最佳化提供了更大的自由度。

在批處理方面,研究團隊採用了一種創新的 inflight-batching(IFB)策略。當處理混合的請求流時,系統會智慧地將上下文階段和生成階段的請求分開處理,每類請求使用專門最佳化的計算流水線。這種設計在保持低延遲的同時,顯著提升了 GPU 利用率。

圖丨 ReDrafter 的 TensorRT-LLM 引擎的線上批處理相容計算工作流程(來源:英偉達)

尤其值得一提的是系統對字首樹計算的最佳化。英偉達開發了專門的運算元來處理動態樹結構,這些運算元經過深度最佳化,能充分利用 Tensor Core 等硬體特性。同時,透過精心設計的記憶體管理策略,系統能夠高效處理不同長度的序列,減少記憶體碎片。

在實際部署測試中,研究團隊使用一個擁有數百億引數的生成模型進行了全面評估。在貪婪解碼模式下,系統實現了 2.7 倍的生成速度提升。這種效能改進不僅降低了使用者感知延遲,還減少了所需的 GPU 數量和能源消耗。

圖丨使用英偉達 TensorRT-LLM 和 ReDrafter 與自迴歸相比,每秒令牌速度加快。(來源:蘋果)

這種效能改進將直接轉化為實際價值:它能最大限度地減少使用者延遲並減少所需的硬體數量。英偉達在其部落格中強調,這次合作顯著增強了 TensorRT-LLM 框架的能力。透過提供標準化的介面和最佳化的實現,使得開發者能夠更容易地部署複雜的語言模型。

ReDrafter 此前已在 GitHub 開源,專案地址:https://github.com/apple/ml-recurrent-drafter。

參考資料:

1.https://machinelearning.apple.com/research/redrafter-nvidia-tensorrt-llm

2.https://arxiv.org//2403.09919v5

3.https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/

排版:劉雅坤

熱門資訊
  • 三星顯示 QD-OLED 面板未來三年規劃曝光 | 2024-11-26 13:32:00
  • 科學家在飲用水中鑑定出未表徵化合物 | 2024-11-26 13:44:31
  • 魅族 PANDAER 35W 自帶線移動電源「曠野」配色上市,165 元 | 2024-11-26 13:46:50
  • 國內首篇鐵死亡Cell論文:西湖大學鄒貽龍/王曦團隊揭示癌症轉移與鐵死亡易感性的關聯,並提出治療新策略 | 2024-11-26 13:48:44
  • 特朗普取消電動車補貼 加州:我補 但排除特斯拉 | 2024-11-26 14:01:32
  • 訊息稱榮耀膝上型電腦新品首發英特爾新一代酷睿 5 處理器 | 2024-11-26 14:37:14
  • 曝榮耀筆記本首發搭載lntel酷睿5處理器,榮耀明年全面佈局PC領域 | 2024-11-26 14:58:20
  • REDMI K80全系大滿貫2K屏:全亮度DC、圓偏振光等護眼方案配齊 | 2024-11-26 14:58:22
  • 規劃推進順利!臺積電重申2025年量產2奈米,2026年量產1.6奈米 | 2024-11-26 15:03:26
  • 工信部出手推進工業軟體自主換代,機器視覺軟體迎來黃金期 | 2024-11-26 15:06:49
  • 英偉達的研發預算幾乎是AMD的兩倍 而英特爾的支出更令兩者相形見絀卻收效不佳 | 2024-11-26 15:15:28
  • 小米首座智慧家電工廠在武漢奠基動工,預計2026年實現大規模量產 | 2024-11-26 15:20:26
  • 小米首座智慧家電工廠奠基動工 大家電業務邁入新階 | 2024-11-26 15:23:00
  • 獲准測試機械臂!馬斯克的腦機介面公司Neuralink,越來越科幻了 | 2024-11-26 15:24:32
  • 2025 款 LG G5 OLED 電視透過認證:4K 超高畫質、165Hz 高重新整理 | 2024-11-26 15:29:37
  • Mate 70 RS非凡大師版釋出:支援創新雙層OLED臨境顯示 | 2024-11-26 15:32:09
  • iQOO Neo10系列即將亮相,120W 超快閃充+雙百瓦相容打造“全能”效能旗艦 | 2024-11-26 15:33:27
  • iQOO Neo10系列放大招:締造不可能續航黃金組合 | 2024-11-26 15:38:30
  • 華碩推出 Pro WS Z890-ACE SE 工作站主機板,支援 IPMI 遠端管理 | 2024-11-26 15:42:11
  • 洗淨比1.2!TCL超級筒洗衣機T7H Pro評測 | 2024-11-26 15:42:13
  • 工廠擴建15倍迎旺季 SHEIN式小單快反助跨境賣家揚帆出海 | 2024-11-26 15:45:36
  • 俄貨運飛船與國際空間站對接後散發難聞氣味,宇航員緊急關閉艙門 | 2024-11-26 15:56:09
  • 23999元!華為首款藍寶石水晶智慧手錶釋出:水晶嵌金條 極致奢華 | 2024-11-26 16:02:06
  • 3000多年前就用冰箱!30年前的與30年後的冰箱差距在哪? | 2024-11-26 16:02:08
  • 越來越多人不裝單開門冰箱,易結霜還串味,不進步就會被時代淘汰 | 2024-11-26 16:02:09
  • 高通驍龍X筆記本自推出以來僅售出約72萬臺 不到同期PC總出貨量的0.008% | 2024-11-26 16:07:23
  • 華為MatePad Pro 13.2英寸真機實拍:鴻蒙星環設計搶眼 | 2024-11-26 16:11:14
  • 更專業更高效,華為純血鴻蒙平板亮相,突破生產力天花板 | 2024-11-26 16:22:57
  • 華為MatePad Pro 13.2英寸釋出 搭載純血鴻蒙 5199元起 | 2024-11-26 16:23:00
  • 華為新旗艦平板可搭載純血鴻蒙,讓生產力更進一步 | 2024-11-26 16:23:01
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們