時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

蘋果和英偉達合作新的推測解碼方法,可將文字生成速度提升2.7倍

2024-12-21 19:43:18

眾所周知,對於自迴歸模型而言,記憶體頻寬一直是制約推理效能的關鍵瓶頸。當模型生成文字時,它需要反覆執行前向傳播來預測每個 token,這個過程不僅需要大量的計算資源,更重要的是會頻繁訪問記憶體來獲取模型權重和中間狀態。這種記憶體密集型的特性導致了較高的延遲,影響使用者體驗。

去年,學界興起了一種稱為推測解碼(Speculative Decoding)的技術用以緩解這一問題。這種方法使用較小的“草稿”模型來預測可能的未來 token 序列,再由主模型驗證,從而實現並行化生成,提高推理效率。

圖丨自迴歸解碼和推測解碼(來源:arXiv)

今年初,提出了一種新的推測解碼方法 Recurrent Drafter (ReDrafter),對原有方法進行了改進。透過將 RNN 草稿模型與動態樹注意力機制相結合,ReDrafter 在每個生成步驟中最多可接受 3.5 個 token,超越了此前方法的水平。

最近,蘋果又宣佈與展開深度技術合作,將其創新的 ReDrafter 推測解碼技術整合到英偉達 TensorRT-LLM 推理加速框架中。這項合作將幫助開發者在英偉達 GPU 上實現更高效的 LLM 推理效能。

ReDrafter 的核心是一個基於(RNN)的草稿模型。與先前的方法(如 Medusa)類似,它使用 Transformer 最後一層的輸出作為輸入。創新之處在於,它還將歷史 token 的嵌入作為迴圈輸入提供給草稿頭。

當 LLM 生成一個 token(比如“quiet”)時,草稿模型會獲取這個 token 的嵌入向量 et 和 LLM 最後一層的輸出 h,然後透過 RNN 更新隱藏狀態:st = f(Ust-1 + W et + b)。更新後的狀態 gt = [st, h] 被用來預測下一個 token。這種遞迴設計讓模型能夠維護動態的上下文表示,大大提升了預測準確性。

圖丨草稿模型以 LLM 的最後隱藏狀態 h 作為輸入來預測接下來的幾個標記。(來源:arXiv)

另一方面,ReDrafter 使用束搜尋來探索多個可能的序列延續。為了提高效率,它引入了動態樹注意力演算法來處理候選序列中的共同字首。

來看一個具體例子:當生成多個候選序列時,比如“morning sipping coffee and watching”和“morning sipping coffee on her”,這些序列往往共享相同的字首。傳統方法會對每個序列獨立計算,而 ReDrafter 透過動態構建字首樹來合併重複計算。系統使用張量運算實現了高效的字首檢測和合並處理,在實踐中可以減少 30%-60% 的計算量。

此外,為了提高草稿模型的預測質量,ReDrafter 採用了一種新的知識蒸餾訓練方法。系統會直接學習 LLM 的 token 生成分佈,而不是簡單地擬合真實序列。訓練目標被定義為最小化 LLM 和草稿模型輸出分佈之間的 KL 散度:min(pdraft) KL(pllm(y1:T)|pdraft(y1:T))。

在每個訓練位置 t,系統從 LLM 取樣未來 T 個 token,並最佳化經驗損失:min(pdraft) Σt −log pdraft(ŷt+1:t+T|y1:t)。這種方法確保了草稿模型能夠更好地模仿 LLM 的行為。

研究結果顯示,在 MT-Bench 基準測試中,ReDrafter 在 Vicuna 7B 和 13B 模型上實現了 2.8 倍的加速。且 ReDrafter 在每個生成步驟平均可接受 4.2 個 token,這意味著相比傳統的每步生成一個 token 的方式,ReDrafter 顯著提升了並行度。在大規模批處理場景下,系統的最高吞吐量可達到每秒 1636 個 token。

並且,在不同的硬體平臺上,ReDrafter 都展現出良好的適應性。在搭載 M2 Ultra 的系統上,13B 引數量的模型達到了 1.94 倍的加速比。即使在計算資源相對有限的 M1 Max 上,系統仍然實現了 1.37 倍的效能提升。

為了讓 ReDrafter 的效能優勢更好地在 TensorRT-LLM 上發揮,英偉達的工程團隊進行了一系列創新。其最重要的改進是將驗證邏輯直接整合到引擎內部,而不是依賴執行時處理。這種設計不僅降低了系統開銷,還為核心選擇和排程最佳化提供了更大的自由度。

在批處理方面,研究團隊採用了一種創新的 inflight-batching(IFB)策略。當處理混合的請求流時,系統會智慧地將上下文階段和生成階段的請求分開處理,每類請求使用專門最佳化的計算流水線。這種設計在保持低延遲的同時,顯著提升了 GPU 利用率。

圖丨 ReDrafter 的 TensorRT-LLM 引擎的線上批處理相容計算工作流程(來源:英偉達)

尤其值得一提的是系統對字首樹計算的最佳化。英偉達開發了專門的運算元來處理動態樹結構,這些運算元經過深度最佳化,能充分利用 Tensor Core 等硬體特性。同時,透過精心設計的記憶體管理策略,系統能夠高效處理不同長度的序列,減少記憶體碎片。

在實際部署測試中,研究團隊使用一個擁有數百億引數的生成模型進行了全面評估。在貪婪解碼模式下,系統實現了 2.7 倍的生成速度提升。這種效能改進不僅降低了使用者感知延遲,還減少了所需的 GPU 數量和能源消耗。

圖丨使用英偉達 TensorRT-LLM 和 ReDrafter 與自迴歸相比,每秒令牌速度加快。(來源:蘋果)

這種效能改進將直接轉化為實際價值:它能最大限度地減少使用者延遲並減少所需的硬體數量。英偉達在其部落格中強調,這次合作顯著增強了 TensorRT-LLM 框架的能力。透過提供標準化的介面和最佳化的實現,使得開發者能夠更容易地部署複雜的語言模型。

ReDrafter 此前已在 GitHub 開源,專案地址:https://github.com/apple/ml-recurrent-drafter。

參考資料:

1.https://machinelearning.apple.com/research/redrafter-nvidia-tensorrt-llm

2.https://arxiv.org//2403.09919v5

3.https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/

排版:劉雅坤

熱門資訊
  • 128GB的大平板,怎麼叫成“閨蜜”就能賣到4000元? | 2024-11-25 20:55:06
  • 2099元起 OPPO Pad 3釋出:2.8K 144Hz高刷屏 | 2024-11-25 20:55:09
  • 2024 款微星尊爵 16 AI+ 銳龍版筆記本開售,12999 元 | 2024-11-25 21:04:09
  • OPPO Pad 3釋出 最高12GB+512GB 起售價2099元 | 2024-11-25 21:20:24
  • OPPO Pad 3 平板智慧鍵盤開啟預售,499 元 | 2024-11-25 21:26:26
  • 頭部小火箭公司24小時兩連發,送衛星入軌超200顆 | 2024-11-25 22:25:21
  • 濟南,為何如此看重這一大事? | 2024-11-25 22:25:41
  • 樹莓派發布支援無線功能、售價 7 美元的微控制器板 Pico 2 W | 2024-11-25 22:28:51
  • 微信、支付寶宣佈下架這項服務!六省使用者受影響 | 2024-11-25 22:33:50
  • 江波龍:首顆32Gbit 2D MLC NAND Flash已經完成流片驗證 | 2024-11-25 22:44:46
  • 天才物理學家Wolfram:物理學的終極可能是什麼? | 2024-11-25 22:44:50
  • 雷神銀翼 F60 投影儀 1499 元首銷,支援 800CVIA 亮度 | 2024-11-25 23:03:38
  • 本碩博畢業於蘭州大學,研究助理教授以第一作者身份發表《Science》 | 2024-11-25 23:23:06
  • 英特爾可能在下一次微碼更新中對Arrow Lake CPU的電壓頻率行為進行重大調整 | 2024-11-25 23:28:09
  • 臺積電稱N2P和N2X IP已準備就緒,客戶已可設計效能增強的2nm晶片 | 2024-11-25 23:34:15
  • 初創公司要以微薄資金顛覆晶片業!力推RISC-V一體化處理器,集CPU+GPU+FPGA+DSP | 2024-11-26 00:17:34
  • 結合CPU、GPU、DSP和FPGA功能的“通用”處理器問世 | 2024-11-26 00:27:33
  • 1999元!小米釋出米家智慧變頻除溼機30L:專攻回南天 10分鐘乾爽 | 2024-11-26 00:37:25
  • 3年停用胰島素!中國團隊官宣攻克糖尿病,下一個是青春科技? | 2024-11-26 00:41:38
  • “中美”之間再起波瀾!11月26日,深夜的三大訊息正式出爐! | 2024-11-26 01:24:08
  • 全球半導體,將創歷史新高 | 2024-11-26 03:23:01
  • 華中科技大學朱錦濤教授團隊最新Angew:超分子瓶刷嵌段共聚物的可程式設計重構 | 2024-11-26 03:45:20
  • 【簡訊】臺積電宣佈2nm已準備就緒;真我宣佈真我Neo系列獨立… | 2024-11-26 04:40:05
  • NASA:計劃於 2025 年 1 月 11 日進行 SpaceX 星艦第七次試飛 | 2024-11-26 04:49:04
  • 馬斯克轉發中國無人機影片:傻子還在生產F-35呢 | 2024-11-26 06:23:11
  • NASA利用超級計算的力量推進我們對宇宙的認識 | 2024-11-26 06:43:05
  • 中國青年學者一作,3位共同二作!最新Nature:光催化C-F鍵! | 2024-11-26 06:43:11
  • 三大運營商2024年省分一把手大調整:27位總經理走馬上任 | 2024-11-26 07:27:16
  • 電池效率高達26.58%,天合光能重磅釋出i-TOPCon Ultra技術 | 2024-11-26 07:28:09
  • 直播:寶辰鑫3D列印鐳射器裝機超5000臺,助力高質量增材製造 | 2024-11-26 07:28:42
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們