研究表明:ChatGPT 在急診護理中竟過度開藥
加州大學舊金山分校的一項新研究發現,如果在急診科啓用 ChatGPT,它或許會給部分患者提議進行不必要的 X 光檢查和使用抗生素,還可能讓無需住院治療的其他患者住院。
研究人員表示,雖然可以通過某些方式提示該模型,使其回答更準確,但它仍然無法與人類醫生的臨牀判斷相媲美。
“這對於臨牀醫生而言是一則有價值的消息,切勿盲目信賴這些模型,”該研究的主要作者、博士後學者克里斯·威廉姆斯(Chris Williams)說,他擁有醫學學士學位和外科學學士學位。該研究於 10 月 8 日發表在《自然通訊》(Nature Communications)雜誌上。“ChatGPT 可以回答醫學考試問題,並幫助起草臨牀筆記,但它目前還不是爲需要多重考慮的情況而設計的,比如急診科的情況。”
最近,威廉姆斯表明,ChatGPT 是一種可用於研究人工智能臨牀應用的大型語言模型(LLM),在確定兩名急診患者中哪一位病情最爲危急這一方面,略優於人類,這是在患者 A 和患者 B 之間做出的直接選擇。
在此次研究中,威廉姆斯給人工智能模型出了道難題,讓它去完成一項更爲複雜的任務:提供醫生在急診科初步檢查患者後給出的建議。這涵蓋了決定是否讓患者住院、做 X 光或其他掃描,亦或是開抗生素。
對於這三個決策中的每一個,該團隊從超過 251,000 次就診的檔案中整理出了 1000 次急診就診記錄進行分析。這些集合裡有關住院、放射學和抗生素的“是”或“否”回答的比例,跟加州大學舊金山分校健康急診科的狀況一致。
藉助加州大學舊金山分校有着廣泛隱私保護的安全生成式人工智能平臺,研究人員將每位患者的症狀和檢查結果的醫生記錄輸入到 ChatGPT-3.5 和 ChatGPT-4 中。然後,他們通過一系列越來越詳細的提示來測試每組的準確性。
總的來說,人工智能模型推薦服務的頻率往往高於實際所需。ChatGPT-4 的準確率比住院醫師低 8%,ChatGPT-3.5 則低 24%。
威廉姆斯表示,人工智能過度推薦的傾向可能是因爲這些模型是在互聯網上訓練的,合法的醫療建議網站並非旨在回答緊急醫療問題,而是旨在將讀者引導給能夠解答的醫生。
“這些模型幾乎被微調爲‘尋求醫療建議’這一說法,從一般公共安全的角度來看,這是非常正確的,”他說。“但在急診室這種環境中,過於謹慎並非總是恰當的,不必要的干預可能會給患者帶來傷害,耗費資源,還會增加患者的成本。”
他表示,像 ChatGPT 這樣的模型在爲急診室做好準備之前,將需要更好的框架來評估臨牀信息。設計這些框架的人員需要在確保人工智能不會遺漏嚴重問題的同時,避免引發不必要的檢查和費用,從而取得平衡。
“沒有完美的解決方案,”他說,“但知道像 ChatGPT 這樣的模型有這些傾向,我們有責任去思考我們期望它們在臨牀實踐中的表現。”