研究發現微軟Copilot回答10大醫療問題時,符合科學的回答佔比54%

近期,一項最新研究揭示了人工智能聊天機器人在提供醫療信息方面的侷限性和潛在風險,引發了人們對這類技術在醫療領域應用的擔憂。

德國和比利時的研究人員對微軟(Microsoft)的 AI 助手 Copilot 進行了一系列常見醫療問題的測試。

研究表明,儘管 AI 搜索引擎和聊天機器人在回答醫療問題時可以發揮一定的作用,但其準確性和安全性仍存在顯著問題,可能對用戶造成嚴重危害。

論文顯示,Copilot 被要求回答在美國最常見的 10 個醫療問題,這些問題涉及約 50 種最常用的藥品(包括處方藥和非處方藥),涵蓋了藥物的用途、作用原理、使用說明、常見副作用和禁忌症。

研究團隊總共獲得了 500 份答案,並根據可讀性、準確性和完整性等指標對其進行了評分。結果顯示,Copilot 僅有 54% 的回答能夠提供符合科學的信息。

對於所提供信息的完整性,AI 答案的平均得分爲 77%,最差的情況只有 23%。至於準確性,有 24% 的 AI 答案與我們已知的醫學知識不符,3% 的答案則是完全錯誤的。

更令人擔憂的是,其中有 42% 的回答可能導致“中度或輕度傷害”,22% 的極端情況甚至可能致命。這一發現無疑給 AI 搜索領域敲響了警鐘,也凸顯了當前 AI 技術在處理複雜醫療信息時的不足,以及在醫療諮詢領域應用的潛在風險。

除了準確性問題,研究還發現 AI 生成的回答往往難以理解。使用弗萊施可讀性分值(Flesch Reading Ease Score)評估後發現,Copilot 的回答平均得分僅爲 37 分左右(最高 100 分,分數越高,越易讀),這意味着理解這些回答需要大學學歷水平。

即使是最容易理解的回答也要求讀者具有高中教育水平,這無疑增加了患者誤解信息的風險。

研究人員指出,AI 聊天機器人在理解患者問題的“潛在意圖”方面存在明顯不足。儘管在某些情況下“它可以提供完整和準確的答案,但頻繁出現的信息缺失和不準確性可能威脅到患者的安全和用藥安全”。

這些研究結果也反映了當前 AI 搜索技術的整體狀況。

谷歌公司的 AI 搜索功能曾因推薦用戶“吃石頭”和在披薩中加入膠水等荒謬建議而受到批評。

最近,有用戶在社交媒體上表示,谷歌的 AI 搜索將一位普通人的電話號碼錯誤地列爲一家視頻遊戲發行商的電話。

另一個例子是,AI 錯誤地聲稱關島有 150 家“好萊塢星球”(Planet Hollywood)餐廳,而實際上全球只有 4 家。

面對這些問題,研究人員強烈建議患者不要依賴 AI 驅動的搜索引擎和聊天機器人來獲取準確、安全的就醫信息。他們強調,儘管 AI 技術潛力巨大,但面對生死攸關的醫療問題,患者必須諮詢醫生,因爲目前的技術無法保證 AI 生成 100% 無誤的信息。

然而,研究人員也認識到,並非所有人都能輕易獲得高質量的醫療建議。在某些地區,看病並不容易,花銷也不菲。

在這種情況下,Copilot 和谷歌可能成爲許多人尋求醫療建議的首選,這更加凸顯了提高 AI 醫療信息準確性的必要性。

儘管微軟等公司在其產品中加入了“請務必覈實 AI 回答的準確性”等警告,但這種做法的實際效果值得商榷。

正如一些網友所指出的那樣,“如果我還是需要自己覈實,爲什麼不直接跳過 AI 這個環節呢?”

這些研究結果對 AI 技術公司來說無疑是一個警示。微軟曾希望通過 AI 技術提升必應搜索引擎的競爭力,但目前看來效果並不明顯。谷歌也在爲 OpenAI 的 ChatGPT 可能帶來的影響而焦慮不已。

與此同時,一項來自蘋果 AI 研究團隊的新成果也證明了 AI 系統的脆弱。GPT-4o 和 Llama3-8b 等模型展現出的推理能力似乎只是“它們找到了複雜的規律”,而非人類的推理能力。他們僅僅在提示中添加了一句話,就讓這些模型的推理能力大打折扣。

例如在一個測試中,他們問模型:“奧利弗星期五摘了 44 顆獼猴桃。星期六他又摘了 58 顆。星期天他摘的獼猴桃數量是星期五的兩倍,但其中 5 顆比平均尺寸略小。奧利弗總共摘了多少顆獼猴桃?”

題目中關於獼猴桃尺寸的信息顯然是干擾項,與最終答案無關,但 GPT-4o1-mini 和 Llama3-8B 在準確計算出星期天的獼猴桃數量並將三天總數相加後,選擇將 5 個尺寸略小的獼猴桃減掉。這顯然是有誤的,會做應用題的小學生都不會犯這種錯誤。

總的來說,儘管 AI 在信息搜索領域展現出了一定的潛力,但目前的技術水平還遠遠不能滿足準確性和安全性的要求。在 AI 系統能夠提供更高準確率的引用之前,研究人員建議謹慎推薦使用 AI 驅動的搜索引擎。

無論是潛在的危險醫療建議、陰謀論還是政治錯誤信息,如果不加以謹慎對待,AI 都可能在某個不經意的時候造成嚴重傷害。

參考資料:

https://www.scimex.org/newsfeed/dont-ditch-your-human-gp-for-dr-chatbot-quite-yet

https://qualitysafety.bmj.com/content/early/2024/09/18/bmjqs-2024-017476

排版:初嘉實