時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

英偉達聯手MIT清北釋出SANA 1.5!線性擴散Transformer再刷文生圖新SOTA

2025-02-07 17:04:11

新智元報道

編輯:英智 好睏

【新智元導讀】SANA 1.5是一種高效可擴充套件的線性擴散Transformer,針對文字生成影象任務進行了三項創新:高效的模型增長策略、深度剪枝和推理時擴充套件策略。這些創新不僅大幅降低了訓練和推理成本,還在生成質量上達到了最先進的水平。

近年來,文字生成影象的技術不斷突破,但隨著模型規模的擴大,計算成本也隨之急劇上升。

為此,聯合MIT、清華、北大等機構的研究人員提出了一種高效可擴充套件的線性擴散Transformer——SANA,在大幅降低計算需求的情況下,還能保持有競爭力的效能。

SANA1.5在此基礎上,聚焦了兩個關鍵問題:

線性擴散Transformer的可擴充套件性如何?

在擴充套件大規模線性DiT時,怎樣降低訓練成本?

論文連結:https://arxiv.org/pdf/2501.18427

SANA 1.5:高效模型擴充套件三大創新

SANA 1.5在SANA 1.0(已被ICLR 2025接收)的基礎上,有三項關鍵創新。

首先,研究者提出了一種高效的模型增長策略,使得SANA可以從1.6B(20層)擴充套件到4.8B(60層)引數,同時顯著減少計算資源消耗,並結合了一種節省記憶體的8位最佳化器。

與傳統的從頭開始訓練大模型不同,透過有策略地初始化額外模組,可以讓大模型保留小模型的先驗知識。與從頭訓練相比,這種方法能減少60%的訓練時間。

其二,引入了模型深度剪枝技術,實現了高效的模型壓縮。透過識別並保留關鍵的塊,實現高效的模型壓縮,然後透過微調快速恢復模型質量,實現靈活的模型配置。

其三,研究者提出了一種推理期間擴充套件策略,引入了重複取樣策略,使得SANA在推理時透過計算而非引數擴充套件,使小模型也能達到大模型的生成質量。

透過生成多個樣本,並利用基於視覺語言模型(VLM)的選擇機制,將GenEval分數從0.72提升至0.80。

與從頭開始訓練大模型不同,研究者首先將一個包含N個Transformer層的基礎模型擴充套件到N+M層(在實驗中,N=20,M=40),同時保留其學到的知識。

在推理階段,採用兩種互補的方法,實現高效部署:

模型深度剪枝機制:識別並保留關鍵的Transformer塊,從而在小的微調成本下,實現靈活的模型配置。

推理時擴充套件策略:藉助重複取樣和VLM引導選擇,在計算資源和模型容量之間權衡。

同時,記憶體高效CAME-8bit最佳化器讓單個消費級GPU上微調十億級別的模型成為可能。

下圖展示了這些元件如何在不同的計算資源預算下協同工作,實現高效擴充套件。

模型增長

研究者提出一種高效的模型增長策略,目的是對預訓練的DiT模型進行擴充套件,把它從層增加到+層,同時保留模型已經學到的知識。

研究過程中,探索了三種初始化策略,最終選定部分保留初始化方法。這是因為該方法既簡單又穩定。

在這個策略裡,預訓練的N層繼續發揮特徵提取的作用,而新增加的M層一開始是隨機初始化,從恆等對映起步,慢慢學習最佳化特徵表示。

實驗結果顯示,與迴圈擴充套件和塊擴充套件策略相比,這種部分保留初始化方法在訓練時的動態表現最為穩定。

模型剪枝

本文提出了一種模型深度剪枝方法,能高效地將大模型壓縮成各種較小的配置,同時保持模型質量。

受Minitron啟發,透過輸入輸出相似性模式分析塊的重要性:

這裡的表示第i個transformer的第t個token。

模型的頭部和尾部塊的重要性較高,而中間層的輸入和輸出特徵相似性較高,表明這些層主要用於逐步最佳化生成的結果。根據排序後的塊重要性,對transformer塊進行剪枝。

剪枝會逐步削弱高頻細節,因為,在剪枝後進一步微調模型,以彌補資訊損失。

使用與大模型相同的訓練損失來監督剪枝後的模型。剪枝模型的適配過程非常簡單,僅需100步微調,剪枝後的1.6B引數模型就能達到與完整的4.8B引數模型相近的質量,並且優於SANA 1.0的1.6B模型。

推理時擴充套件

SANA 1.5經過充分訓練,在高效擴充套件的基礎上,生成能力有了顯著提升。受LLM推理時擴充套件的啟發,研究者也想透過這種方式,讓SANA 1.5表現得更好。

對SANA和很多擴散模型來說,增加去噪步數是一種常見的推理時擴充套件方法。但實際上,這個方法不太理想。一方面,新增的去噪步驟沒辦法修正之前出現的錯誤;另一方面,生成質量很快就會達到瓶頸。

相較而言,增加取樣次數是更有潛力的方向。

研究者用視覺語言模型(VLM)來判斷生成影象和文字提示是否匹配。他們以NVILA-2B為基礎模型,專門製作了一個資料集對其進行微調。

微調後的VLM能自動比較並評價生成的影象,經過多輪篩選,選出排名top-N的候選影象。這不僅確保了評選結果的可靠性,還能有效過濾與文字提示不匹配的影象。

模型增長、模型深度剪枝和推理擴充套件,構成了一個高效的模型擴充套件框架。三種方法協同配合,證明了精心設計的最佳化策略,遠比單純增加引數更有效。

模型增長策略探索了更大的最佳化空間,挖掘出更優質的特徵表示。

模型深度剪枝精準識別並保留了關鍵特徵,從而實現高效部署。

推理時間擴充套件表明,當模型容量有限時,藉助額外的推理時間和計算資源,能讓模型達到與大模型相似甚至更好的效果。

為了實現大模型的高效訓練與微調,研究者對CAME進行擴充套件,引入按塊8位量化,從而實現CAME-8bit最佳化器。

CAME-8bit相比AdamW-32bit減少了約8倍的記憶體使用,同時保持訓練的穩定性。

該最佳化器不僅在預訓練階段效果顯著,在單GPU微調場景中更是意義非凡。用RTX 4090這樣的消費級GPU,就能輕鬆微調SANA 4.8B。

研究揭示了高效擴充套件不僅僅依賴於增加模型容量。透過充分利用小模型的知識,並設計模型的增長-剪枝,更高的生成質量並不一定需要更大的模型。

SANA 1.5 評估結果

實驗表明,SANA 1.5的訓練收斂速度比傳統方法(擴大規模並從頭開始訓練)快2.5倍。

訓練擴充套件策略將GenEval分數從0.66提升至0.72,並透過推理擴充套件將其進一步提高至0.80,在GenEval基準測試中達到了最先進的效能。

模型增長

將SANA-4.8B與當前最先進的文字生成影象方法進行了比較,結果如表所示。

從SANA-1.6B到4.8B的擴充套件帶來了顯著的改進:GenEval得分提升0.06(從0.66增加到0.72),FID降低0.34(從5.76降至5.42),DPG得分提升0.2(從84.8增加到85.0)。

和當前最先進的方法相比,SANA-4.8B模型的引數數量少很多,卻能達到和大模型一樣甚至更好的效果。

SANA-4.8B的GenEval得分為0.72,接近Playground v3的0.76。

在執行速度上,SANA-4.8B的延遲比FLUX-dev(23.0秒)低5.5倍;吞吐量為0.26樣本/秒,是FLUX-dev(0.04樣本/秒)的6.5倍,這使得SANA-4.8B在實際應用中更具優勢。

模型剪枝

為了和SANA 1.0(1.6B)公平比較,此次訓練的SANA 1.5(4.8B)模型,沒有用高質量資料做監督微調。

所有結果都是針對512×512尺寸的影象評估得出的。經過修剪和微調的模型,僅用較低的計算成本,得分就達到了0.672,超過了從頭訓練模型的0.664。

推理時擴充套件

將推理擴充套件應用於SANA 1.5(4.8B)模型,並在GenEval基準上與其他大型影象生成模型進行了比較。

透過從2048張生成的影象中選擇樣本,經過推理擴充套件的模型在整體準確率上比單張影象生成提高了8%,在「顏色」「位置」和「歸屬」子任務上提升明顯。

不僅如此,藉助推理時擴充套件,SANA 1.5(4.8B)模型的整體準確率比Playground v3 (24B)高4%。

結果表明,即使模型容量有限,提高推理效率,也能提升模型生成影象的質量和準確性。

SANA:超高效文生圖

在這裡介紹一下之前的SANA工作。

SANA是一個超高效的文字生成影象框架,能生成高達4096×4096解析度的影象,不僅畫質清晰,還能讓影象和輸入文字精準匹配,而且生成速度超快,在膝上型電腦的GPU上就能執行。

SANA為何如此強大?這得益於它的創新設計:

深度壓縮自動編碼器:傳統自動編碼器壓縮影象的能力有限,一般只能壓縮8倍。而SANA的自動編碼器能達到32倍壓縮,大大減少了潛在tokens數量,計算效率也就更高了。

線性DiT:SANA用線性注意力替換了DiT中的標準注意力。在處理高解析度影象時,速度更快,還不會降低影象質量。

僅解碼文字編碼器:SANA不用T5做文字編碼器了,而是採用現代化的小型僅解碼大模型。同時,透過上下文學習,設計出更貼合實際需求的指令,讓生成的影象和輸入文字對應得更好。

高效訓練與取樣:SANA提出了Flow-DPM-Solver方法,減少了取樣步驟。再配合高效的字幕標註與選取,讓模型更快收斂。

經過這些最佳化,SANA-0.6B表現十分出色。

它生成影象的質量和像Flux-12B這樣的現代大型擴散模型差不多,但模型體積縮小了20倍,資料處理能力卻提升了100倍以上。

SANA-0.6B執行要求不高,在只有16GB視訊記憶體的筆記本GPU上就能執行,生成一張1024×1024解析度的影象,用時不到1秒。

這意味著,創作者們用普通的膝上型電腦,就能輕鬆製作高質量影象,大大降低了內容創作的成本。

研究者提出新的深度壓縮自動編碼器,將壓縮比例提升到32倍,和壓縮比例為8倍的自動編碼器相比,F32自動編碼器生成的潛在tokens減少了16倍。

這一改進對於高效訓練和超高解析度影象生成,至關重要。

研究者提出一種全新的線性DiT,用線性注意力替代傳統的二次複雜度注意力,將計算複雜度從原本的O(N²) 降低至O(N)。另一方面,在MLP層引入3×3深度可分卷積,增強潛在tokens的區域性資訊。

在生成效果上,線性注意力與傳統注意力相當,在生成4K影象時,推理延遲降低了1.7倍。Mix-FFN結構讓模型無需位置編碼,也能生成高質量影象,這讓它成為首個無需位置嵌入的DiT變體。

在文字編碼器的選擇上,研究者選用了僅解碼的小型大語言模型Gemma,以此提升對提示詞的理解與推理能力。相較於CLIP和T5,Gemma在文字理解和指令執行方面表現更為出色。

為充分發揮Gemma的優勢,研究者最佳化訓練穩定性,設計複雜人類指令,藉助Gemma的上下文學習能力,進一步提高了影象與文字的匹配質量。

研究者提出一種自動標註與訓練策略,藉助多個視覺語言模型(VLM)生成多樣化的重新描述文字。然後,運用基於CLIPScore的策略,篩選出CLIPScore較高的描述,以此增強模型的收斂性和對齊效果。

在推理環節,相較於Flow-Euler-Solver,Flow-DPM-Solver將推理步驟從28-50步縮減至14-20步,不僅提升了速度,生成效果也更為出色。

參考資料:

https://huggingface.co/papers/2501.18427

https://x.com/xieenze_jr/status/1885510823767875799

https://nvlabs.github.io/SANA/

熱門資訊
  • 經典的紅黑配色!耕升RTX 5080追風OC顯示卡圖賞 | 2025-01-31 00:38:27
  • 幾何秩序美!索泰RTX 5080 16GB SOLID OC顯示卡圖賞 | 2025-01-31 01:11:51
  • 微軟釋出新一代Surface USB4擴充套件塢 以更少的成本帶來豐富的介面 | 2025-01-31 03:13:36
  • 微軟釋出基於Intel處理器的Surface Pro 11和Surface Laptop 7 | 2025-01-31 03:18:44
  • 剛剛!DeepSeek,突驚美軍! | 2025-01-31 03:41:18
  • 突破只待時日!最具潛力的下一代電池,程序不斷提速 | 2025-01-31 03:43:58
  • 揭牌!中國科學院煙臺海岸帶研究所煙臺市海洋生態環境核安全保障重點實驗室啟動 | 2025-01-31 03:44:00
  • 羅技推出隱形辦公空間監控裝置 Logitech Spot | 2025-01-31 03:55:47
  • 美國被困宇航員想回家!特朗普:已指示採取行動,但一切存在變數 | 2025-01-31 04:01:07
  • 中國科學家用兩隻雄性小鼠“創造”下一代,已存活至成年 | 2025-01-31 04:01:09
  • NASA噴氣推進實驗室(JPL)2025年任務彙總 | 2025-01-31 04:11:48
  • 長江儲存已出貨DDR5-6000套件中的16奈米G4 DDR5 DRAM | 2025-01-31 04:11:50
  • 喜訊!上海交通大學海南研究院海鈴團隊首次在南海觀測到大氣繆子訊號!2024年共完成兩次海試 | 2025-01-31 04:55:56
  • 多國設限,如此圍堵中國,豬都能笑醒! | 2025-01-31 05:06:00
  • 15篇!中國學者2024年Nature Immunology論文發表彙總 | 2025-01-31 05:11:37
  • 突傳噩耗!諾貝爾化學獎得主逝世,享年94歲! | 2025-01-31 05:12:32
  • 打電話也要“以舊換新”了?——5G新通話瞭解下 | 2025-01-31 05:14:25
  • 滯留太空的美宇航員進行太空行走,預計持續約6.5小時 | 2025-01-31 06:16:59
  • 長江儲存開始出貨294層第五代NAND快閃記憶體 | 2025-01-31 06:44:06
  • 運營商財經網康釗:美國連閹割版英偉達晶片都不想賣給中國? | 2025-01-31 06:44:07
  • 北京大學姜輝團隊ACS Nano:生物可降解塑膠聚乳酸可侵入精子,誘導生殖毒性 | 2025-01-31 06:44:11
  • 口述|新年展望二:醫生、科學家最關注的科學突破 | 2025-01-31 07:14:24
  • 山西農業大學副教授以第一作者身份在JCR一區Top期刊(IF5y=6.2)上發表研究成果 | 2025-01-31 07:34:36
  • 罕見,這篇頂刊Matter,所有作者,均用中文署名! | 2025-01-31 08:04:11
  • 科學家開發單穩態結構軟體機器魚,以每秒6.8倍體長速度高速遊動 | 2025-01-31 08:31:46
  • 重大突破!北京林業大學在《Cell》旗下著名期刊發表研究成果 | 2025-01-31 08:31:47
  • 港城大張其春等《Angew》:可溶COF用於高效能鋰金屬電池的ASEI陽極修飾 | 2025-01-31 08:42:31
  • 蘋果季度業績"歷史最好" 中國收入唯一下滑 | 2025-01-31 09:06:44
  • 日本Rapidus工廠擴建計劃包括安裝十臺EUV光刻機 | 2025-01-31 09:06:45
  • 山東大學專家找到雄激素的快速調控“開關” | 2025-01-31 09:06:49
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們