時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

最新論文顯示,在臨床醫學決策中,ChatGPT-o1略勝一籌,但DeepSeek-R1更靈活可用

2025-02-02 11:47:07

撰文丨王聰

編輯丨王多魚

排版丨水成文

2025 年 1 月 20 日,中國杭州的初創公司深度求索(DeepSeek)釋出了一款大語言模型(LLM)——DeepSeek-R1,這是一個部分開源(訓練資料未公開,因此並非完全開源)的“推理”模型,其能夠以與OpenAI於 2024 年年底釋出的最先進的專注於“推理”的大語言模型ChatGPT-o1相近的水平解決一些科學問題。

更重要的是,DeepSeek-R1 的訓練成本遠低於美國科技巨頭們開發的主流大語言模型,DeepSeek-R1 的高效能與超低成本引起了全世界科學界的驚歎。

2025 年 1 月 28 日,義大利那不勒斯第二大學的研究人員在預印本平臺medRxiv上發表了題為:Comparative Evaluation of Advanced AI Reasoning Models in Pediatric Clinical Decision Support: ChatGPT o1 vs. DeepSeek-R1 的論文。

研究團隊在兒科臨床決策支援中比較評估了兩款 AI 推理模型:ChatGPT o1vs.DeepSeek-R1。評估結果顯示,ChatGPT o1的準確率勝過DeepSeek-R1(92.8% vs 87.0%)。

ChatGPT o1所使用的“思維鏈”(CoT)推理技術使得回答更加結構化和可靠,降低了出錯的風險。DeepSeek-R1雖然回答正確率稍低,但因其開源的特性以及新興的自我反思能力,展現出了更出色的可及性和適應性。

採用先進的推理模型,例如ChatGPT o1和DeepSeek-R1,在臨床決策支援方面邁出了關鍵一步,尤其是在兒科領域。

ChatGPT o1 採用“思維鏈”(Chain-of-Thought,CoT)推理來增強結構化問題的解決能力,該模型的訪問是透過每月付費訂閱獲得的,每週限制 50 條訊息;而 DeepSeek-R1 則透過“強化學習”(Reinforcement Learning,RL)引入了自我反思能力,該模型是免費開源的,每天限制 50 條訊息。

該研究旨在利用MedQA資料集評估ChatGPT o1和DeepSeek-R1這兩款推理模型在兒科場景中的診斷準確性和臨床實用性。

研究團隊從 MedQA 資料集中選取了 500 道兒科領域選擇題,並將其呈現 ChatGPT o1 和 DeepSeek-R1。每道選擇題都包含四個或更多的選項,其中只有一個是正確答案。

研究團隊在統一條件下對 ChatGPT o1 和 DeepSeek-R1 進行了評估,評估指標包括回答的準確率、科恩卡帕係數和卡方檢驗,以評估一致性及統計顯著性。透過對答案的分析,確定這兩款推理模型在解答臨床問題方面的有效性。

結果顯示,在 500 道問題中,ChatGPT o1 回答正確了 464 道,準確率為92.8%;DeepSeek-R1 回答正確了 435 道,準確率為87.0%。有 413 道題 ChatGPT o1 和 DeepSeek-R1 均回答正確,有 14 道題二者均回答錯誤,有 51 道題 DeepSeek-R1 回答錯誤而 ChatGPT o1 回答正確,有 22 道題 DeepSeek-R1 回答正確而 ChatGPT o1 回答錯誤。

ChatGPT o1 與 DeepSeek-R1 模型之間的比較分析,突顯了它們在效能和設計原則上的差異,它們在準確率指標和臨床應用潛力方面展現出不同。

ChatGPT o1 模型以 92.8% 的正確率略勝一籌,高於 DeepSeek-R1 的 87.0%,這表明 ChatGPT o1 在提供正確答案方面更具可靠性。這一特點使得 ChatGPT o1 在臨床環境中特別適用,尤其是在診斷錯誤需降至最低的情況下。例如,在處理有敗血症跡象的新生兒等危急情況時,ChatGPT o1 能夠提供更可靠的答案,從而降低嚴重臨床後果的風險。這一結果可能歸因於其採用了“思維鏈”(CoT)推理技術,該技術使模型能夠透過將複雜問題分解為連續步驟來解決,從而增強結構化推理能力。

然而,ChatGPT o1 的可及性受到顯著的實際限制,它需要付費訂閱,且每週僅允許 50 條訊息,這可能會成為其應用的阻礙。在資源有限的環境中,尤其是在密集的教育活動或廣泛的臨床模擬期間,這種情況尤為明顯。

DeepSeek-R1 雖然準確率略低,但由於其開源的特性,成為了一種易於獲取且創新的解決方案。這一特點使其在資源有限的醫療環境中或需要免費且靈活工具的學術專案中特別有用。DeepSeek-R1 在預訓練階段採用了基於“強化學習”(RL)的方法,使模型能夠在不依賴傳統監督預訓練的情況下發展出高階推理能力。DeepSeek-R1 的一個顯著特點是其正在形成的自我反思能力(即自我進化),透過這種能力,模型能夠自主驗證並最佳化其邏輯步驟,從而在複雜任務上提升效能。這一能力在諸如“對於疑似病毒性腦炎的兒童,接下來的管理步驟是什麼?”這類需要多層次分析的複雜查詢中可能特別有用。

科恩卡帕係數(K = 0.20)表明,這些模型之間的一致性較低,反映出它們各自獨特的推理策略。該係數在 -1到1 之間,‌-1‌ 代表完全不一致性,0‌ 代表隨機一致性,‌1‌ 代表完全一致性。

從技術角度來看,這兩個模型各有特色:ChatGPT o1 透過實施“思維鏈”(CoT)推理等高階技術來最大化結構化推理,使其特別適合複雜的臨床環境。而 DeepSeek-R1 則以靈活性和免費可用為特點,使其在資源有限的場景中更具可及性。

最後,論文作者表示,這項研究凸顯了ChatGPT o1在提供準確和連貫的臨床推理方面具有優勢,使其高度適用於兒科危急情況。而DeepSeek-R1憑藉其靈活性和可及性,在資源有限的環境中仍是一個寶貴的工具。將這兩款模型組合成一個整合系統,可以利用它們的互補優勢,最佳化不同臨床情境下的決策支援,例如,將複雜和高風險病例的分析交給 ChatGPT o1,而將 DeepSeek 用於直接回答問題和處理重複性流程,從而確保整體效率更高。此外,有必要開展進一步研究,以探索它們在多學科醫療團隊中的整合,以及在真實世界臨床環境中的應用 。

論文連結:

https://www.medrxiv.org/content/10.1101/2025.01.27.25321169v1

熱門資訊
  • 國科能源申請基於充放電溫升的長迴圈磷酸鐵鋰電池迴圈壽命預測方法專利,預測電池迴圈壽命 | 2024-12-01 04:26:22
  • 傳鴻鈞微電子裁員50%!國產Arm伺服器CPU還有機會嗎? | 2024-12-01 04:26:25
  • 新華全媒+|我國首型4米級運載火箭長征十二號首飛成功 | 2024-12-01 04:50:45
  • 它們留給後代的唯一禮物是數十億個病毒,用來保平安 | 2024-12-01 06:27:28
  • 新華鮮報|首飛、首發告捷!中國商業航天“三大件”齊了 | 2024-12-01 06:40:52
  • 馬斯克點贊蘋果 AirPods Pro 2 助聽器功能:“很酷” | 2024-12-01 07:00:15
  • 胰島素口服不是夢:無針膠囊正在改變藥物遞送方式 | 2024-12-01 07:25:12
  • 上海寒武紀申請晶片效能測試專利,能夠提高晶片效能測試結果的準確性 | 2024-12-01 07:43:07
  • "歐羅巴快船"航天器正平穩駛向木星 研究木衛二隱藏的海洋 | 2024-12-01 07:43:15
  • 上海亞曼光電科技取得光刻機投影物鏡安裝調平裝置專利,方便對光刻機的投影物鏡進行調平 | 2024-12-01 07:44:53
  • 神十九乘組在軌“滿月” 多項空間科學實試驗並行開展 | 2024-12-01 08:12:42
  • 我國首個商業航天發射場首發成功 | 2024-12-01 09:21:10
  • 廣汽與華為達成合作 知情人士稱非鴻蒙智行模式 | 2024-12-01 09:26:50
  • 雷諾在上海招聘200多人開發電動車,想反哺法國業務 | 2024-12-01 09:26:51
  • 臺積電創始人曝光:11年前曾邀請過黃仁勳擔任公司CEO | 2024-12-01 09:26:52
  • 他,開闢水凝膠新方向,連發Nature、Science及Nature大子刊! | 2024-12-01 09:26:59
  • 專家質疑馬斯克火星移民計劃可行性:可能會引發人道主義災難 | 2024-12-01 09:27:00
  • 前 NASA 工程師打造太空自拍衛星,明年 1 月將由 SpaceX 發射 | 2024-12-01 09:27:36
  • 浙江大學鄭強、吳子良教授,最新Nature Materials評論! | 2024-12-01 09:27:41
  • “窮小子”比亞迪助力!“中國汽車第一城”易主幾無懸念 | 2024-12-01 09:32:09
  • 中國聯通(中東)運營有限公司正式成立 | 2024-12-01 09:42:05
  • 這些重大任務,交給了民企 | 2024-12-01 10:15:14
  • 湖南大學這個團隊,1個月連發三篇Nature大子刊! | 2024-12-01 10:22:48
  • 曝蘋果已訂購M5晶片 繼續沿用3奈米工藝 明年釋出 | 2024-12-01 10:22:52
  • 微軟聲稱驍龍 Copilot+ PC 是最快的 Windows PC,遭使用者質疑 | 2024-12-01 11:16:41
  • Intel新一代獨立顯示卡Battlemage“戰鬥法師”效能曝光:跑分強於RTX 4060 Ti | 2024-12-01 11:31:04
  • 巴西發射一枚自主研發火箭 | 2024-12-01 11:37:45
  • 臺積電正式釋出N2P技術:邁向2nm晶片的新時代 | 2024-12-01 11:43:02
  • 通訊人的擺攤兒生涯…全國獨一家! | 2024-12-01 11:43:11
  • 首發自研藍河系統 vivo WATCH 3官宣降價200元:899元起 | 2024-12-01 12:11:44
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們