☰

ChatGPT擊敗50名人類醫生！疾病診斷準確率達90%

用ChatGPT診斷疾病，準確率已經超過了人類醫生？！

斯坦福大學等機構進行了一輪隨機臨牀試驗，結果人類醫生單獨做出診斷的準確率爲74%。

在ChatGPT的輔助之下，這一數字提升到了76%。

有意思的是，如果完全讓ChatGPT“自由發揮”，準確率直接飆到了90%。

據紐約時報說，面對這一結果，參與實驗的內科專家Adam Rodman博士表示非常震驚。

有人評價，在這樣的案例中，人類的干預，反而是給大模型的表現“拖了後腿”。

OpenAI總裁Brockman也轉發了這則消息，表示看來AI還有巨大的潛力，但在和人類合作這件事上，還需要再加強。

研究團隊隨機從斯坦福大學、弗吉尼亞大學等機構招募到了50名醫生，其中包括44名內科醫生、5名急診醫生和1名家庭醫生。

如果按照職稱劃分，這50名醫生包括26名主治醫生和24名住院醫生，工作年限中位數爲3年。

主治醫生和住院醫生分別被隨機分配到實驗組和對照組，區別是在診斷中是否允許使用ChatGPT。

另外，研究人員還對參與者的大模型使用經驗進行了統計。

結果有8人從未使用過ChatGPT，6人只用過一次，15人使用頻率少於每月一次，13人每月多於一次但少於每週一次，8人每週至少使用一次。

病例方面，研究團隊從上世紀90年代以來的105個經典病例中進行了選擇和改編。

所有病例均來源於真實病人，包含病史、體檢和實驗室檢查結果等初步診斷評估信息，但最終診斷結果從未公開。

這意味着，人類醫生無法預先知曉答案，ChatGPT的訓練數據中也沒有相應的診斷結果。

四名專業醫生每人獨立審閱其中至少50個病例，確定至少10個滿足納入標準的候選病例，需要排除過於簡單或過於罕見的病例。

最終四人小組討論達成一致，確定6個最終入選病例，預計受試者完成時間爲1個小時。

入選的病例還要經過編輯，改寫成現代化實驗室數據報告的格式，並用將專業術語替換爲通俗描述（如將“網狀青斑”替換爲“紫色、紅色、蕾絲狀皮疹”）。

在評估方法上，研究團隊設計了一個基於“結構化反思”的評估工具。

具體來說，參與者需要填寫一個結構化的表格，其中包含以下關鍵要素：

在正式實驗之前，研究團隊招募了13名醫生，收集了共65個試點病例的結構化反思表格，並邀請3名臨牀評估專家進行盲評，從而對評分量表進行了優化。

最終，50名參與者需要在1個小時時間內，完成6個病例的結構化反思表格。

每個病例會被2名評分員獨立盲評，如果兩名評審員評分相差不超過10%，則直接取平均值；

如果差異超過10%，則認爲兩名評審員存在分歧，需要進行討論直至達成共識。

爲了更清晰地展示研究的內容，研究人員公佈了六個病例中的一個，以及對應得分高和得分低的醫生的答案。

案例中還包括該男子體檢的詳細信息以及他的實驗室測試結果，正確的診斷是“膽固醇栓塞”，兩名醫生以及GPT-4給出的回答如下（中間理由和後續操作略）。

最終，實驗組（使用ChatGPT）的診斷得分中位數爲76%，對照組爲74%。

由於每個參與者完成了多個病例，因此病例之間可能存在相關性，所以爲了妥善處理這種嵌套結構，作者使用了混合效應模型。

這類模型不僅考慮了干預的固定效應（即是否使用大模型的影響），還考慮了參與者和病例的隨機效應。

根據混合效應模型估計，兩組的差異爲2個百分點，95%置信區間爲-4到8個百分點，p值爲0.60。

這意味着，儘管實驗組的得分略高於對照組，但這種差異可能僅僅是由於隨機誤差所致，不具有統計學意義。

如果單純看最終診斷結果，以及完成測試所花費的時間，兩組之間同樣沒有體現出明顯的差別。

除此之外，作者還補充了單獨使用ChatGPT進行診斷的實驗。

研究團隊使用近期提出的提示工程框架，迭代開發了一個最優的0樣本提示。

其中包含了任務細節、背景、指令等關鍵要素，且每個病例使用相同的提示。

一名研究者會將優化後的提示，連同病例內容輸入ChatGPT，每個病例獨立運行三次。

研究者會不對ChatGPT的輸出做任何人工修改，直接交給評分者一同盲評，而且評分員也不知道哪些結果由ChatGPT生成。

結果，單獨使用ChatGPT得到的診斷得分，中位數高達92%，明顯高於對照組，且p值爲0.03，具有統計學意義。

需要注意的是，這些病例是經過人類臨牀醫生精心篩選和總結的，人類已經對其中的關鍵信息進行過提取。

實際臨牀工作中，從病人那裡獲取信息、收集數據的過程更加複雜，因此實驗結果並不代表大模型能在臨牀場景中取代人類。

但同時，“人類+ChatGPT”與ChatGPT“自由發揮”結果之間的巨大差異，也說明了人類的使用方式，還遠遠不能發揮出大模型的最大效能。

所以，就像開頭Brockman說的一樣，這個實驗預示着，人類和AI之間，還需要進一步加強合作。

論文地址：https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395參考鏈接：[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html[2]https://x.com/gdb/status/1858337346514485362

ChatGPT擊敗50名人類醫生！疾病診斷準確率達90%

相關資訊