時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

最新論文顯示,在臨床醫學決策中,ChatGPT-o1略勝一籌,但DeepSeek-R1更靈活可用

2025-02-02 11:47:07

撰文丨王聰

編輯丨王多魚

排版丨水成文

2025 年 1 月 20 日,中國杭州的初創公司深度求索(DeepSeek)釋出了一款大語言模型(LLM)——DeepSeek-R1,這是一個部分開源(訓練資料未公開,因此並非完全開源)的“推理”模型,其能夠以與OpenAI於 2024 年年底釋出的最先進的專注於“推理”的大語言模型ChatGPT-o1相近的水平解決一些科學問題。

更重要的是,DeepSeek-R1 的訓練成本遠低於美國科技巨頭們開發的主流大語言模型,DeepSeek-R1 的高效能與超低成本引起了全世界科學界的驚歎。

2025 年 1 月 28 日,義大利那不勒斯第二大學的研究人員在預印本平臺medRxiv上發表了題為:Comparative Evaluation of Advanced AI Reasoning Models in Pediatric Clinical Decision Support: ChatGPT o1 vs. DeepSeek-R1 的論文。

研究團隊在兒科臨床決策支援中比較評估了兩款 AI 推理模型:ChatGPT o1vs.DeepSeek-R1。評估結果顯示,ChatGPT o1的準確率勝過DeepSeek-R1(92.8% vs 87.0%)。

ChatGPT o1所使用的“思維鏈”(CoT)推理技術使得回答更加結構化和可靠,降低了出錯的風險。DeepSeek-R1雖然回答正確率稍低,但因其開源的特性以及新興的自我反思能力,展現出了更出色的可及性和適應性。

採用先進的推理模型,例如ChatGPT o1和DeepSeek-R1,在臨床決策支援方面邁出了關鍵一步,尤其是在兒科領域。

ChatGPT o1 採用“思維鏈”(Chain-of-Thought,CoT)推理來增強結構化問題的解決能力,該模型的訪問是透過每月付費訂閱獲得的,每週限制 50 條訊息;而 DeepSeek-R1 則透過“強化學習”(Reinforcement Learning,RL)引入了自我反思能力,該模型是免費開源的,每天限制 50 條訊息。

該研究旨在利用MedQA資料集評估ChatGPT o1和DeepSeek-R1這兩款推理模型在兒科場景中的診斷準確性和臨床實用性。

研究團隊從 MedQA 資料集中選取了 500 道兒科領域選擇題,並將其呈現 ChatGPT o1 和 DeepSeek-R1。每道選擇題都包含四個或更多的選項,其中只有一個是正確答案。

研究團隊在統一條件下對 ChatGPT o1 和 DeepSeek-R1 進行了評估,評估指標包括回答的準確率、科恩卡帕係數和卡方檢驗,以評估一致性及統計顯著性。透過對答案的分析,確定這兩款推理模型在解答臨床問題方面的有效性。

結果顯示,在 500 道問題中,ChatGPT o1 回答正確了 464 道,準確率為92.8%;DeepSeek-R1 回答正確了 435 道,準確率為87.0%。有 413 道題 ChatGPT o1 和 DeepSeek-R1 均回答正確,有 14 道題二者均回答錯誤,有 51 道題 DeepSeek-R1 回答錯誤而 ChatGPT o1 回答正確,有 22 道題 DeepSeek-R1 回答正確而 ChatGPT o1 回答錯誤。

ChatGPT o1 與 DeepSeek-R1 模型之間的比較分析,突顯了它們在效能和設計原則上的差異,它們在準確率指標和臨床應用潛力方面展現出不同。

ChatGPT o1 模型以 92.8% 的正確率略勝一籌,高於 DeepSeek-R1 的 87.0%,這表明 ChatGPT o1 在提供正確答案方面更具可靠性。這一特點使得 ChatGPT o1 在臨床環境中特別適用,尤其是在診斷錯誤需降至最低的情況下。例如,在處理有敗血症跡象的新生兒等危急情況時,ChatGPT o1 能夠提供更可靠的答案,從而降低嚴重臨床後果的風險。這一結果可能歸因於其採用了“思維鏈”(CoT)推理技術,該技術使模型能夠透過將複雜問題分解為連續步驟來解決,從而增強結構化推理能力。

然而,ChatGPT o1 的可及性受到顯著的實際限制,它需要付費訂閱,且每週僅允許 50 條訊息,這可能會成為其應用的阻礙。在資源有限的環境中,尤其是在密集的教育活動或廣泛的臨床模擬期間,這種情況尤為明顯。

DeepSeek-R1 雖然準確率略低,但由於其開源的特性,成為了一種易於獲取且創新的解決方案。這一特點使其在資源有限的醫療環境中或需要免費且靈活工具的學術專案中特別有用。DeepSeek-R1 在預訓練階段採用了基於“強化學習”(RL)的方法,使模型能夠在不依賴傳統監督預訓練的情況下發展出高階推理能力。DeepSeek-R1 的一個顯著特點是其正在形成的自我反思能力(即自我進化),透過這種能力,模型能夠自主驗證並最佳化其邏輯步驟,從而在複雜任務上提升效能。這一能力在諸如“對於疑似病毒性腦炎的兒童,接下來的管理步驟是什麼?”這類需要多層次分析的複雜查詢中可能特別有用。

科恩卡帕係數(K = 0.20)表明,這些模型之間的一致性較低,反映出它們各自獨特的推理策略。該係數在 -1到1 之間,‌-1‌ 代表完全不一致性,0‌ 代表隨機一致性,‌1‌ 代表完全一致性。

從技術角度來看,這兩個模型各有特色:ChatGPT o1 透過實施“思維鏈”(CoT)推理等高階技術來最大化結構化推理,使其特別適合複雜的臨床環境。而 DeepSeek-R1 則以靈活性和免費可用為特點,使其在資源有限的場景中更具可及性。

最後,論文作者表示,這項研究凸顯了ChatGPT o1在提供準確和連貫的臨床推理方面具有優勢,使其高度適用於兒科危急情況。而DeepSeek-R1憑藉其靈活性和可及性,在資源有限的環境中仍是一個寶貴的工具。將這兩款模型組合成一個整合系統,可以利用它們的互補優勢,最佳化不同臨床情境下的決策支援,例如,將複雜和高風險病例的分析交給 ChatGPT o1,而將 DeepSeek 用於直接回答問題和處理重複性流程,從而確保整體效率更高。此外,有必要開展進一步研究,以探索它們在多學科醫療團隊中的整合,以及在真實世界臨床環境中的應用 。

論文連結:

https://www.medrxiv.org/content/10.1101/2025.01.27.25321169v1

熱門資訊
  • 《自然》連發3文,直指癌症的“生命線”︱新聞串燒 | 2024-11-12 02:17:47
  • 華為申請硫化物固態電池專利 大幅提升鋰離子電池壽命和效能 | 2024-11-12 02:47:16
  • 清華學者打造新型電熱方案,已開始推進中試開發 | 2024-11-12 02:54:35
  • 創新的混合太陽能裝置將光伏電池板和儲能裝置結合在一起 | 2024-11-12 02:58:41
  • 生命盡頭的端粒密碼:壽命的極限會在哪? | 2024-11-12 02:58:44
  • Nature子刊:乳酸太毒了!導致耗竭T細胞功能障礙,促進腫瘤免疫逃逸 | 2024-11-12 03:47:42
  • 月球背面月壤樣品首次亮相 2024 中國航展 | 2024-11-12 04:57:31
  • 一箭15星!力箭一號“五戰五捷” | 2024-11-12 04:57:33
  • 8天變8個月!滯留太空150多天的宇航員,瘦成了皮包骨錐子臉?NASA:她很健康! | 2024-11-12 05:22:39
  • “北方華創”大顯身手,半導體裝置迎來國產替代高峰! | 2024-11-12 05:22:44
  • 華為又出大訊息 | 2024-11-12 05:22:47
  • 尖嘴猴腮!美國女宇航員瘦脫相,臺專家:身體出現三個狀況 | 2024-11-12 05:22:49
  • 我國“昊龍”貨運太空梭與空間站交會對接並返回演示動畫公佈 | 2024-11-12 05:34:50
  • 中國科學家獲得諾貝爾自然科學獎的人數很少,到底為什麼? | 2024-11-12 05:54:40
  • 華工科技:實現高階光晶片自主可控,推出業界最新的1.6T光模組用矽光晶片 | 2024-11-12 06:31:19
  • 全球首例!幹細胞治療恢復人類視力 | 2024-11-12 06:44:56
  • 蘋果向 AirPods 4 和 AirPods Pro 2 耳機推送7B20/7B21韌體更新 | 2024-11-12 06:55:12
  • 99人!第十八屆中國青年科技獎擬表彰物件公示 | 2024-11-12 07:04:12
  • 史上最長雙11收官,阿里京東戰報都很簡略 | 2024-11-12 07:21:55
  • 黑天鵝正式降落!今日凌晨的四大訊息全面來襲(11.12)! | 2024-11-12 07:50:39
  • 外媒:美國施壓,臺積電停供大陸7奈米AI晶片 | 2024-11-12 07:55:05
  • 10月新能源汽車產銷量同比增長均近五成 | 2024-11-12 07:55:10
  • AMD RDNA 4移動端獨立顯示卡陣容曝光 共有四款型號  | 2024-11-12 07:56:27
  • Q3全球專業電視ODM工廠出貨排名公佈:富士康第八 | 2024-11-12 07:56:29
  • 何祚庥院士:推廣中國磁懸浮的第一人 | 2024-11-12 07:59:55
  • 紫光展銳攜手影目科技推出AI眼鏡開放平臺,定價千元以內 | 2024-11-12 08:25:38
  • 先導智慧推出全固態整線解決方案,助力全固態電池量產提速 | 2024-11-12 08:25:43
  • 小米電視熱賣 TCL代工廠蟬聯全球榜首 全年第一已毫無懸念 | 2024-11-12 08:38:52
  • 人類首次商業太空行走!花2億在太空“露個頭”,卻讓馬斯克贏麻 | 2024-11-12 09:02:40
  • 安鈦克推出 CX600M Trio 中塔遊戲機箱:全景海景房、雙腔設計 | 2024-11-12 09:12:34
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們