ChatGPT擊敗50名人類醫生!疾病診斷準確率達90%

用ChatGPT診斷疾病,準確率已經超過了人類醫生?!

斯坦福大學等機構進行了一輪隨機臨牀試驗,結果人類醫生單獨做出診斷的準確率爲74%。

在ChatGPT的輔助之下,這一數字提升到了76%。

有意思的是,如果完全讓ChatGPT“自由發揮”,準確率直接飆到了90%。

據紐約時報說,面對這一結果,參與實驗的內科專家Adam Rodman博士表示非常震驚。

有人評價,在這樣的案例中,人類的干預,反而是給大模型的表現“拖了後腿”。

OpenAI總裁Brockman也轉發了這則消息,表示看來AI還有巨大的潛力,但在和人類合作這件事上,還需要再加強。

研究團隊隨機從斯坦福大學、弗吉尼亞大學等機構招募到了50名醫生,其中包括44名內科醫生、5名急診醫生和1名家庭醫生。

如果按照職稱劃分,這50名醫生包括26名主治醫生和24名住院醫生,工作年限中位數爲3年。

主治醫生和住院醫生分別被隨機分配到實驗組和對照組,區別是在診斷中是否允許使用ChatGPT。

另外,研究人員還對參與者的大模型使用經驗進行了統計。

結果有8人從未使用過ChatGPT,6人只用過一次,15人使用頻率少於每月一次,13人每月多於一次但少於每週一次,8人每週至少使用一次。

病例方面,研究團隊從上世紀90年代以來的105個經典病例中進行了選擇和改編。

所有病例均來源於真實病人,包含病史、體檢和實驗室檢查結果等初步診斷評估信息,但最終診斷結果從未公開。

這意味着,人類醫生無法預先知曉答案,ChatGPT的訓練數據中也沒有相應的診斷結果。

四名專業醫生每人獨立審閱其中至少50個病例,確定至少10個滿足納入標準的候選病例,需要排除過於簡單或過於罕見的病例。

最終四人小組討論達成一致,確定6個最終入選病例,預計受試者完成時間爲1個小時。

入選的病例還要經過編輯,改寫成現代化實驗室數據報告的格式,並用將專業術語替換爲通俗描述(如將“網狀青斑”替換爲“紫色、紅色、蕾絲狀皮疹”)。

在評估方法上,研究團隊設計了一個基於“結構化反思”的評估工具。

具體來說,參與者需要填寫一個結構化的表格,其中包含以下關鍵要素:

在正式實驗之前,研究團隊招募了13名醫生,收集了共65個試點病例的結構化反思表格,並邀請3名臨牀評估專家進行盲評,從而對評分量表進行了優化。

最終,50名參與者需要在1個小時時間內,完成6個病例的結構化反思表格。

每個病例會被2名評分員獨立盲評,如果兩名評審員評分相差不超過10%,則直接取平均值;

如果差異超過10%,則認爲兩名評審員存在分歧,需要進行討論直至達成共識。

爲了更清晰地展示研究的內容,研究人員公佈了六個病例中的一個,以及對應得分高和得分低的醫生的答案。

案例中還包括該男子體檢的詳細信息以及他的實驗室測試結果,正確的診斷是“膽固醇栓塞”,兩名醫生以及GPT-4給出的回答如下(中間理由和後續操作略)。

最終,實驗組(使用ChatGPT)的診斷得分中位數爲76%,對照組爲74%。

由於每個參與者完成了多個病例,因此病例之間可能存在相關性,所以爲了妥善處理這種嵌套結構,作者使用了混合效應模型。

這類模型不僅考慮了干預的固定效應(即是否使用大模型的影響),還考慮了參與者和病例的隨機效應。

根據混合效應模型估計,兩組的差異爲2個百分點,95%置信區間爲-4到8個百分點,p值爲0.60。

這意味着,儘管實驗組的得分略高於對照組,但這種差異可能僅僅是由於隨機誤差所致,不具有統計學意義。

如果單純看最終診斷結果,以及完成測試所花費的時間,兩組之間同樣沒有體現出明顯的差別。

除此之外,作者還補充了單獨使用ChatGPT進行診斷的實驗。

研究團隊使用近期提出的提示工程框架,迭代開發了一個最優的0樣本提示。

其中包含了任務細節、背景、指令等關鍵要素,且每個病例使用相同的提示。

一名研究者會將優化後的提示,連同病例內容輸入ChatGPT,每個病例獨立運行三次。

研究者會不對ChatGPT的輸出做任何人工修改,直接交給評分者一同盲評,而且評分員也不知道哪些結果由ChatGPT生成。

結果,單獨使用ChatGPT得到的診斷得分,中位數高達92%,明顯高於對照組,且p值爲0.03,具有統計學意義。

需要注意的是,這些病例是經過人類臨牀醫生精心篩選和總結的,人類已經對其中的關鍵信息進行過提取。

實際臨牀工作中,從病人那裡獲取信息、收集數據的過程更加複雜,因此實驗結果並不代表大模型能在臨牀場景中取代人類。

但同時,“人類+ChatGPT”與ChatGPT“自由發揮”結果之間的巨大差異,也說明了人類的使用方式,還遠遠不能發揮出大模型的最大效能。

所以,就像開頭Brockman說的一樣,這個實驗預示着,人類和AI之間,還需要進一步加強合作。

論文地址:https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395參考鏈接:[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html[2]https://x.com/gdb/status/1858337346514485362