撰文丨王聰
編輯丨王多魚
排版丨水成文
2025 年 1 月 20 日,中國杭州的初創公司深度求索(DeepSeek)釋出了一款大語言模型(LLM)——DeepSeek-R1,這是一個部分開源(訓練資料未公開,因此並非完全開源)的“推理”模型,其能夠以與OpenAI於 2024 年年底釋出的最先進的專注於“推理”的大語言模型ChatGPT-o1相近的水平解決一些科學問題。
更重要的是,DeepSeek-R1 的訓練成本遠低於美國科技巨頭們開發的主流大語言模型,DeepSeek-R1 的高效能與超低成本引起了全世界科學界的驚歎。
2025 年 1 月 28 日,義大利那不勒斯第二大學的研究人員在預印本平臺medRxiv上發表了題為:Comparative Evaluation of Advanced AI Reasoning Models in Pediatric Clinical Decision Support: ChatGPT o1 vs. DeepSeek-R1 的論文。
研究團隊在兒科臨床決策支援中比較評估了兩款 AI 推理模型:ChatGPT o1vs.DeepSeek-R1。評估結果顯示,ChatGPT o1的準確率勝過DeepSeek-R1(92.8% vs 87.0%)。
ChatGPT o1所使用的“思維鏈”(CoT)推理技術使得回答更加結構化和可靠,降低了出錯的風險。DeepSeek-R1雖然回答正確率稍低,但因其開源的特性以及新興的自我反思能力,展現出了更出色的可及性和適應性。
採用先進的推理模型,例如ChatGPT o1和DeepSeek-R1,在臨床決策支援方面邁出了關鍵一步,尤其是在兒科領域。
ChatGPT o1 採用“思維鏈”(Chain-of-Thought,CoT)推理來增強結構化問題的解決能力,該模型的訪問是透過每月付費訂閱獲得的,每週限制 50 條訊息;而 DeepSeek-R1 則透過“強化學習”(Reinforcement Learning,RL)引入了自我反思能力,該模型是免費開源的,每天限制 50 條訊息。
該研究旨在利用MedQA資料集評估ChatGPT o1和DeepSeek-R1這兩款推理模型在兒科場景中的診斷準確性和臨床實用性。
研究團隊從 MedQA 資料集中選取了 500 道兒科領域選擇題,並將其呈現 ChatGPT o1 和 DeepSeek-R1。每道選擇題都包含四個或更多的選項,其中只有一個是正確答案。
研究團隊在統一條件下對 ChatGPT o1 和 DeepSeek-R1 進行了評估,評估指標包括回答的準確率、科恩卡帕係數和卡方檢驗,以評估一致性及統計顯著性。透過對答案的分析,確定這兩款推理模型在解答臨床問題方面的有效性。
結果顯示,在 500 道問題中,ChatGPT o1 回答正確了 464 道,準確率為92.8%;DeepSeek-R1 回答正確了 435 道,準確率為87.0%。有 413 道題 ChatGPT o1 和 DeepSeek-R1 均回答正確,有 14 道題二者均回答錯誤,有 51 道題 DeepSeek-R1 回答錯誤而 ChatGPT o1 回答正確,有 22 道題 DeepSeek-R1 回答正確而 ChatGPT o1 回答錯誤。
ChatGPT o1 與 DeepSeek-R1 模型之間的比較分析,突顯了它們在效能和設計原則上的差異,它們在準確率指標和臨床應用潛力方面展現出不同。
ChatGPT o1 模型以 92.8% 的正確率略勝一籌,高於 DeepSeek-R1 的 87.0%,這表明 ChatGPT o1 在提供正確答案方面更具可靠性。這一特點使得 ChatGPT o1 在臨床環境中特別適用,尤其是在診斷錯誤需降至最低的情況下。例如,在處理有敗血症跡象的新生兒等危急情況時,ChatGPT o1 能夠提供更可靠的答案,從而降低嚴重臨床後果的風險。這一結果可能歸因於其採用了“思維鏈”(CoT)推理技術,該技術使模型能夠透過將複雜問題分解為連續步驟來解決,從而增強結構化推理能力。
然而,ChatGPT o1 的可及性受到顯著的實際限制,它需要付費訂閱,且每週僅允許 50 條訊息,這可能會成為其應用的阻礙。在資源有限的環境中,尤其是在密集的教育活動或廣泛的臨床模擬期間,這種情況尤為明顯。
DeepSeek-R1 雖然準確率略低,但由於其開源的特性,成為了一種易於獲取且創新的解決方案。這一特點使其在資源有限的醫療環境中或需要免費且靈活工具的學術專案中特別有用。DeepSeek-R1 在預訓練階段採用了基於“強化學習”(RL)的方法,使模型能夠在不依賴傳統監督預訓練的情況下發展出高階推理能力。DeepSeek-R1 的一個顯著特點是其正在形成的自我反思能力(即自我進化),透過這種能力,模型能夠自主驗證並最佳化其邏輯步驟,從而在複雜任務上提升效能。這一能力在諸如“對於疑似病毒性腦炎的兒童,接下來的管理步驟是什麼?”這類需要多層次分析的複雜查詢中可能特別有用。
科恩卡帕係數(K = 0.20)表明,這些模型之間的一致性較低,反映出它們各自獨特的推理策略。該係數在 -1到1 之間,-1 代表完全不一致性,0 代表隨機一致性,1 代表完全一致性。
從技術角度來看,這兩個模型各有特色:ChatGPT o1 透過實施“思維鏈”(CoT)推理等高階技術來最大化結構化推理,使其特別適合複雜的臨床環境。而 DeepSeek-R1 則以靈活性和免費可用為特點,使其在資源有限的場景中更具可及性。
最後,論文作者表示,這項研究凸顯了ChatGPT o1在提供準確和連貫的臨床推理方面具有優勢,使其高度適用於兒科危急情況。而DeepSeek-R1憑藉其靈活性和可及性,在資源有限的環境中仍是一個寶貴的工具。將這兩款模型組合成一個整合系統,可以利用它們的互補優勢,最佳化不同臨床情境下的決策支援,例如,將複雜和高風險病例的分析交給 ChatGPT o1,而將 DeepSeek 用於直接回答問題和處理重複性流程,從而確保整體效率更高。此外,有必要開展進一步研究,以探索它們在多學科醫療團隊中的整合,以及在真實世界臨床環境中的應用 。
論文連結:
https://www.medrxiv.org/content/10.1101/2025.01.27.25321169v1