時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

清華UCSD提出全新微調方法,8B小模型媲美GPT-4o!科學問題正確率提高28%

2024-12-03 03:22:14

新智元報道

編輯:靜音

【新智元導讀】最近,一支來自UCSD和清華的研究團隊提出了一種全新的微調方法。經過這種微調後,一個僅80億引數的小模型,在科學問題上也能和GPT-4o一較高下!或許,單純地卷AI計算能力並不是唯一的出路。

我們都知道,在科研界,LLM在解決簡單科學問題時表現得遊刃有餘,但在應對複雜問題時往往會出現幻覺。於是,為了讓模型更靠譜,研究人員嘗試給模型裝上科學工具,幫助它們解決高難度任務。

然而,一旦用上工具,模型就「上癮」了!甚至連一些不怎麼難的問題都要靠工具解決。這不僅讓計算成本暴漲,還影響了模型自己「獨立思考」的能力——就像有的人有了計算器就不再心算一樣。

相較而言,人類科學專家在解決科學問題時,通常會先評估問題的複雜性,再決定使用基本推理或專業工具。

正是受這種解決問題流程的啟發,一支來自UCSD和清華的研究團隊提出了一種全新的微調方法,讓模型「邊適應邊學習」,學會在使用外部科學工具和依賴內部知識之間做出合理選擇。

論文地址:https://arxiv.org/abs/2411.00412

這一方法的顯著意義在於它大大提高了模型效率。

研究人員僅使用一個擁有80億引數的LLM——遠小於行業巨頭如GPT-4——便在測試資料集上實現了28.18%的答案准確率提升和13.89%的工具使用精度提高。

這挑戰了AI開發中的一個慣有想法:更大的模型必然能帶來更好的結果。

教會AI在使用外部工具和依賴內部知識之間進行判斷——就像訓練一位年輕科學家如何在相信自己計算的同時知道何時諮詢專業裝置——可能比單純地卷AI計算能力更為重要。

微調方法簡介

微調方法由兩部分組成:World Knowledge Distillation(WKD)和Tool Usage Adaptation(TUA)。

World Knowledge Distillation可以翻譯為「世界知識蒸餾」。在WKD過程中,LLM透過學習那些藉助工具生成的解答,來掌握和積累特定領域的知識。

WKD分為監督微調和偏好最佳化兩部分。

對於所有問題,研究人員提示LLM使用工具生成確定性的解答,然後將這些解答作為目標,進行監督微調(SFT)。

在遇到開放式問題時,除了進行監督微調外,LLM會生成一組不同的解答提議,並使用預定義的指標對這些提議進行排序,以構建偏好對;然後利用這些資料進行偏好最佳化。

而在Tool Usage Adaptation中,研究人員首先在基準資料集的問題上評估經過WKD微調後的LLM。對於每個問題,他們取樣生成一組直接回答,以計算其準確率。

基於預設的準確率閾值,他們將問題分為兩個子集:簡單問題集,即LLM可以直接解決的問題;以及複雜問題集,即LLM需要藉助工具回答的問題。

對於簡單問題集,保持與WKD一致的對齊目標,即繼續透過內化已有知識直接作答;而對於複雜問題集,研究人員將對齊目標切換為包含工具使用軌跡的增強解答,並訓練LLM準確地遵循這些軌跡。

實驗過程

研究人員使用Llama-3.1-8B-Instruct作為微調方案的基礎模型。同時還對其他最先進的開源和閉源模型進行了廣泛評估,包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。

資料集

研究人員使用了兩個現有的公開資料集MATH和SciBench,並構建了四個新的科學資料集用於實驗:Mujoco、偏微分方程(PDEs)、氣候科學和流行病學。

四個資料集的構建遵循系統化流程:首先,基於專家諮詢和模擬器功能設計了特定領域的問題模板;接著,透過在科學合理的引數範圍內進行取樣,生成單獨的問題;最後,利用LLMs和工具使用軌跡生成相應的解答。

Mujoco中主要涉及剛體和柔體動力學相關問題。

在偏微分方程(PDEs)中,研究人員設計了內部的數值求解器,並編制了關於熱傳遞、化學工程、人口模擬等領域的問題。

氣候科學問題資料集則以神經代理模型為中心。該模型接受時間、氣候情景(如SSP126、SSP245)、溫室氣體排放(CO₂,CH₄)和氣溶膠氣體(BC,SO₂)等輸入,輸出相應的地表溫度。

流行病學問題資料集使用了最先進的代理模型。模型輸入包括每個加利福尼亞州縣的28天多維特徵以及24維的州級初始條件,用於描述流行病狀態。模型輸出未來28天的流行病狀態預測。

四個自定義資料集主要由多項選擇題構成,而其中的氣候科學資料集還包含開放式問題(例如關於氣候變化緩解的政策建議)。公開的MATH和SciBench資料集則完全由數值問題組成。

外部科學工具

研究人員為不同資料集使用了不同的工具。

對於Mujoco資料集,他們使用了官方API;

對於PDEs資料集,他們利用了內部的數值求解器;

對於氣候和流行病學資料集,他們使用了封裝對應神經代理模型的API;

對於開放式資料集,他們採用了Python程式碼直譯器。

評估指標

實驗主要評估了兩種準確率:答案准確率和工具使用準確率。

答案准確率

答案准確率量化了模型提供的正確答案比例。

對於自定義資料集中的多項選擇題(MCQs),研究人員根據模型是否選擇正確選項來分配二進位制分數。

對於MATH和SciBench資料集中的數值答案,如果答案在真實值的±5%的容差範圍內,則視為正確答案。

工具使用準確率

工具使用準確率評估模型是否能在工具使用方面做出智慧決策,即在回答較難問題時使用工具,而在回答較簡單問題時直接作答。

問題根據訓練模型是否可透過Pn(無工具使用)回答來劃分為簡單(E)或困難(H)。當使用允許工具選擇的Pi時,決策進一步標記為T(使用工具)或N(不使用工具)。例如,HT表示模型在處理一個困難問題時選擇使用工具。

工具使用準確率定義為:

實驗結果

答案准確率

該微調方法在自定義資料集上的表現顯著優於所有基準模型,這些資料集通常未在預訓練中涵蓋。

儘管在公開資料集上,微調過的模型並未超越當前的最先進模型,但相比於未微調的基礎模型,該方法顯示出顯著的改進。這一在公開基準測試上的效能差距,可能是由於當前最先進模型具有更多的引數量,並對開源資料集進行了特定最佳化。

工具使用準確率

總體而言,訓練模型在所有資料集上均實現了最佳的工具使用準確率,除了在SciBench資料集上排名第二。

相比之下,其他模型的準確率大約為50%,表明兩種典型情況:要麼過度依賴工具,要麼從不嘗試使用工具。

除了表中展示的優勢外,研究人員還進一步分析了MATH資料集上的工具使用決策情況,該資料集在下圖中根據問題難度提供了先驗標籤。

訓練模型在問題難度增加時顯示出合理的工具使用增長。基礎模型則無論問題難度如何均表現出對工具的過度依賴;而Claude 3.5在面對簡單和困難問題時均表現出更多的直接回答信心,可能是因為MATH是一個公開資料集,該模型在訓練期間已接觸到類似問題。

作者介紹

Bohan Lyu

Bohan Lyu目前在清華大學修讀計算機科學與經濟學雙學位。

2023年,他加入清華NLP實驗室,受劉知遠教授的指導。

2024年夏天,他前往加州大學聖地亞哥分校(UCSD)的計算機科學與工程系Rose-STL實驗室,導師是Rose Yu教授。本研究部分工作在他訪問UCSD期間完成。

他的研究興趣是設計創新的計算機科學方法,特別是專注於語言技術、知識發現和資料探勘,以解決現實世界的挑戰。

此前,他曾擔任過ICLR 2024、ICML 2024和ACL 2024研討會的審稿人。

YadiCao

Yadi Cao在加州大學聖地亞哥分校(UCSD)計算機科學與工程系擔任博士後研究員,導師是Rose Yu教授。

此前,他在加州大學洛杉磯分校(UCLA)獲得了計算機科學博士學位,導師是Chenfanfu Jiang教授和Demetri Terzopoulos教授。

他的博士研究主要集中在偏微分方程(PDE)的數值解和機器學習方法,特別是在計算固體和流體動力學方面。

參考資料:

https://venturebeat.com/ai/uc-san-diego-tsinghua-university-researchers-just-made-ai-way-better-at-knowing-when-to-ask-for-help/

https://arxiv.org/abs/2411.00412

熱門資訊
  • 訊息稱華為智慧眼鏡 2 將推出新鏡框,現款售 1399-1999 元 | 2024-11-17 21:20:55
  • Intel不放棄獨立顯示卡!第三代真的會有 | 2024-11-17 21:33:01
  • 長征十二號近期首飛 首次亮相第十五屆中國航展 | 2024-11-17 21:47:49
  • “重大突破”!今日正式入列! | 2024-11-17 21:51:40
  • 古爾曼:蘋果 AirTag 2 將在明年中期發售,定位能力更強 | 2024-11-17 21:52:12
  • 夢迴 1993:古爾曼稱蘋果正評估“製造自有品牌電視機”可能性 | 2024-11-17 22:12:22
  • 聯想全球首秀16TB記憶體!128條128GB | 2024-11-17 22:27:17
  • NVIDIA Blackwell B200新照:八卡並行 總功耗8000W | 2024-11-17 22:46:41
  • 模擬IC設計即將發生的巨大變化 | 2024-11-17 22:53:07
  • SpaceX總裁:星鏈已經很賺錢了,但星艦價值更大 | 2024-11-17 22:57:07
  • 諾獎得主:在大灣區做科研很幸運,計劃去華強北給家人買禮物 | 2024-11-17 23:10:15
  • 西班牙科爾多瓦宣佈部署大疆機場 2:利用無人機遠端檢查塔臺 | 2024-11-17 23:37:38
  • 微電子國際知名學者答21:中國在科技賽道的努力讓人欽佩,國際合作非常重要 | 2024-11-17 23:49:57
  • 蘋果正在"評估"自制電視裝置的想法 但其推出是有條件的 | 2024-11-17 23:56:28
  • Immunity | APOE聚集體如何啟動阿爾茨海默症的病理反應 | 2024-11-17 23:56:55
  • 去年我國創新藥海外授權專案數首超許可引進數,金額超400億美元 | 2024-11-18 00:03:10
  • 樹莓派5外接RX 6750XT:居然能在4K下玩《Crysis》 | 2024-11-18 00:04:04
  • AirTags 2 將在 2025 年帶來更好的位置跟蹤功能 | 2024-11-18 00:05:26
  • 講了三年物理課,張朝陽的變與不變 | 2024-11-18 00:11:55
  • 皮卡裝無人機,“陸地航母”的意義是什麼? | 2024-11-18 00:20:11
  • Nature Aging:補充NAD+前體煙醯胺核苷可延緩衰老 | 2024-11-18 00:23:01
  • 多款核心部件實現國產替代!亮相高交會,商業航天借勢騰飛 | 2024-11-18 00:23:30
  • 全球科技創新中心發展態勢 | 2024-11-18 02:11:27
  • 天舟八號飛船發射!航天員湯洪波公開亮相:或無緣神舟二十號飛行任務? | 2024-11-18 03:34:32
  • 樞密院十號:NASA在準備緊急撤離!國際空間站怎麼了? | 2024-11-18 03:45:56
  • ReRAM,替代快閃記憶體的首選 | 2024-11-18 04:14:46
  • 華為公佈最新晶片封裝專利:可提高晶片焊接優良率 | 2024-11-18 04:24:08
  • 天舟八號“小時達”已由天宮空間站簽收 物流詳情→ | 2024-11-18 04:51:25
  • 中國科學院院士褚君浩:不必追求“天才”,做有科學精神的普通勞動者 | 2024-11-18 05:20:56
  • 南京工業大學王芳芳AM:逐步熔融-聚合分子實現疏水性晶粒級封裝的鈣鈦礦太陽能電池 | 2024-11-18 05:21:00
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們