時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

艾倫研究所與華盛頓大學推出OpenScholar,用小引數超越GPT-4o

2024-11-23 08:29:18

近幾十年來,全球科學研究的進展促使論文數量迅猛增長,每年有數百萬篇研究成果被髮表,這一方面為科研人員提供了豐富的參考資源,推動了知識的積累和共享,但另一方面,也帶來了難以應對的資訊過載問題。科研人員面對如此龐大的文獻量,往往難以快速找到高質量、相關性強的研究,從而影響了科研效率和創新。

直到人工智慧憑藉其能力給這一問題帶來解決方案。從最初的嚐鮮與不信任,再到現在逐漸融入科研日常,越來越多的研究人員開始使用 ChatGPT、Perplexity 等 AI 工具來進行文獻檢索和資訊綜合。

然而,這些通用模型在處理科學問題時往往存在生成幻覺、成本高昂以及引數規模過大的缺陷,限制了它們在科學領域的適用性。

為此,由艾倫人工智慧研究所 (Ai2) 和華盛頓大學合作,開發了一個針對科研的開源模型 OpenScholar。

作為一種“檢索增強型語言模型”(Retrieval-Augmented Language Model),它將尖端檢索系統與經過微調的語言模型相結合,旨在應對科學查詢時能夠檢索出相關文獻並生成帶有真實引用的綜合性回答,其核心架構由以下部分構成。

就其資料儲存而言,主要包含來自 Semantic Scholar 的 4500 萬篇開放獲取的論文和約 2.5 億個相應的段落嵌入。這些資料來自 peS2o 的更新版本其中包含截至 2024 年 10 月的論文,是目前科學領域最大的開源資料庫之一。

每篇文獻都被分割為獨立的段落,並透過嵌入技術進行向量化處理,使模型可以根據查詢高效地檢索到最相關的內容。相比於通常只依靠訓練資料的語言模型,OpenScholar 能夠較大程度地克服許多傳統模型存在的“幻覺”(即生成不存在或錯誤引用)的不足,提升內容的可信度和引用的準確性。

在檢索時,模型會利用經過專門訓練的檢索器(OpenScholar-Retriever)從中找到與查詢最相關的文獻段落。檢索器的初始候選段落由雙編碼器(bi-encoder)進行預篩選,然後透過交叉編碼器(cross-encoder)進行重排,以確保檢索結果的準確性和相關性。

雙編碼器主要用於對文獻段落和查詢進行編碼,並透過計算餘弦相似度來進行初步篩選,生成候選段落集合。接下來,交叉編碼器會對每個候選段落與查詢進行聯合編碼,以捕捉更深層次的語義關聯,從而生成更精確的重排分數。這種組合使用雙編碼器和交叉編碼器的方式,既保證了初步檢索的速度,又確保了最終返回段落的質量。

接下來,經過篩選的文獻段落會被傳遞給 OpenScholar 的生成模組——一個經過專門訓練的 Llama 3.1 8B 引數語言模型。該模型結合上下文段落與輸入的科研問題,生成初步的回答。在生成回答後,OpenScholar 引入了一種自我反饋機制。

這種自我反饋迭代過程被稱為檢索增強的自我反饋推理,它包含三個主要步驟:(1)初步回答生成及反饋生成,(2)基於反饋的檢索與迭代改進,以及(3)引用驗證。

首先,初步回答生成及反饋生成的步驟中,模型不僅生成對問題的回答,還會生成一系列自然語言的反饋,這些反饋包含對初步回答中可能存在的問題的描述,例如需要補充哪些細節、改進哪些組織結構等。

其次,在基於反饋的檢索與迭代改進階段,模型使用生成的反饋來檢索更多相關文獻,進一步完善回答內容。最後,在引用驗證階段,模型會對回答中的每個引用進行核查,以確保每個科學論斷都有足夠的文獻支援。

為了評估 OpenScholar 的效能,研究團隊開發了首個跨學科的大規模文獻檢索基準—ScholarQABench,涵蓋了計算機科學、物理學、神經科學和生物醫學等領域,共包括 2967 個專家編寫的問題和 208 個長篇回答。

與現有系統相比,OpenScholar 表現出顯著優勢。在測試中,OpenScholar-8B 的回答準確度超過了 GPT-4o 模型 5%,比基於 GPT-4o 構建的 PaperQA2 高出 7%。

在回答開放式研究問題時,團隊發現 GPT-4o 在 78%–90% 的情況下會生成虛假的引用,OpenScholar 卻達到了與人類專家相當的引用準確度。

值得一提的是,OpenScholar 的資料儲存、檢索器和重新排序模型以及自反饋生成管道還可以應用於其他現成的語言模型。將其應用在 GPT-4o 時,模型的準確度提高了 12%。

另外,專家評審中,在對比模型生成的回答與人類專家編寫的回答時,51% 的情況下,專家更傾向於 OpenScholar-8B 的回答,而 OpenScholar 結合 GPT-4o 的版本更是達到了 70% 的偏好率,遠超 GPT-4o 的 32%。

不過,在剩餘的 30% 的情況中,模型也存在未能引用基礎論文或選擇代表性較低的研究等不足。

另外,由於該模型的資料主要來自於開放獲取論文,這在一定程度上限制了它在一些高風險領域(如製藥業)的應用,因為這些領域的大部分研究是付費獲取的。且其生成成果在很大程度上依賴於檢索資料的質量。如果檢索步驟失敗,整個流程可能會產生次優的結果。

所以,這類人工智慧工具的存在,依舊是為了增強而非取代人類的專業知識。它的目標是透過處理耗時的文獻綜合任務來幫助研究人員,使他們能夠專注於解釋和推進知識。

目前,OpenScholar 的程式碼、模型、資料儲存、評估工具等已全部開源(專案地址:https://github.com/AkariAsai/OpenScholar)。

參考資料:

1. https://openscholar.allen.ai/paper

2. https://allenai.org/blog/openscholar

3.https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

運營/排版:何晨龍

熱門資訊
  • 小米14 Ultra現身認證網站 預計本月底釋出 配置很頂 | 2024-02-04 10:13:57
  • 16GB+1TB+3200萬雙攝,頂配旗艦跌至2366元,扯下友商“遮羞布” | 2024-02-04 10:14:02
  • 春節前想換手機的可以看看!這幾款你買我必推薦 | 2024-02-04 10:14:06
  • 1599 元,技嘉推出 RTX 3050 6G 半高刀卡:長 181mm,出廠超頻 | 2024-02-04 10:14:09
  • iFixit 拆解蘋果頭顯Vision Pro,內部結構複雜 | 2024-02-04 10:16:54
  • 訊息稱英特爾與AMD爭奪次世代Xbox晶片訂單 | 2024-02-04 10:16:57
  • 蘋果Vision Pro虛擬顯示器功能支援英特爾Mac,限3K解析度 | 2024-02-04 10:17:01
  • 2023年iPhone均價達6400元 蘋果多個市場收入創新高! | 2024-02-04 10:17:05
  • 小米高管職務大變動!盧偉冰談接手小米手機:巨大責任 | 2024-02-04 10:17:07
  • 核顯究竟要怎麼用?別忽略這幾點你不知道的事情 | 2024-02-04 10:17:10
  • 華為Matebook 14 2024款曝光:外觀大改 加量不加價 | 2024-02-04 10:17:17
  • 2023 年中國智慧盒子出貨量慘淡,銷量 159 萬臺下降 27.5 % | 2024-02-04 10:17:28
  • 南方人不明白,北方暖氣費一交好幾千,為什麼不開空調? | 2024-02-04 10:17:31
  • 能裝進口袋的迷你主機還能流暢玩帕魯?銘凡EM780開箱體驗 | 2024-02-04 10:24:58
  • 史上最強小米手機來了!小米14 Ultra正式官宣:科技樹點滿 盧偉冰主講直呼“燒腦” | 2024-02-04 10:25:02
  • 聊聊這兩年遊戲本顯示卡的“糟糕刀法” | 2024-02-04 10:28:21
  • 手機鏡頭越做越厚,乾脆做成“可伸縮式變焦鏡頭”,不是更好嗎? | 2024-02-04 10:28:29
  • 如果沒有雷軍,你還會跟隨小米嗎?米粉:盧偉冰接手,繼續支援! | 2024-02-04 10:28:32
  • 全能影像,更進一步!vivo X100 Pro評測報告 | 2024-02-04 10:28:36
  • 華為等國產機熱賣!蘋果不屑:iPhone在中國依然最優秀 | 2024-02-04 10:29:35
  • 2023年中國智慧盒子出貨量慘淡,銷量159萬臺下降27.5% | 2024-02-04 10:31:16
  • 2023年iPhone均價達6400元 蘋果多個市場收入創新高 | 2024-02-04 10:31:21
  • 1月Steam軟硬體報告:AMD處理器佔34.25%創新高 | 2024-02-04 10:31:31
  • 1月交付量掉隊,“小鳳”想帶飛“小鵬”不容易 | 2024-02-04 10:45:33
  • 一種奇特的拓撲結構,打開了未來技術的新維度 | 2024-02-04 10:45:45
  • 逝者|胡和生:她師從蘇步青,是中國數學界第一位女院士 | 2024-02-04 10:45:52
  • 百度輸入法更新上線VIP功能:22.8元/月,可使用商城付費內容 | 2024-02-04 10:45:55
  • AI Agent的任務,是讓我們每天最多工作四個小時 | 2024-02-04 11:03:55
  • 正式下文:中國版“星鏈”正式啟動加速度! | 2024-02-04 11:04:17
  • 暢網推出Mini-ITX板U套裝:可選AMD銳龍7940HS移動處理器,2888元 | 2024-02-04 11:04:23
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們