新研究:醫用AI評估精神分裂新患者治療效果近乎盲猜

1月12日消息,一項最新研究發現,用於協助醫生治療精神分裂症患者的計算機算法不能很好適應之前開發過程中未見過的新鮮數據。因此這種醫用人工智能在評估未曾接觸過的患者的治療效果時,表現十分糟糕。

這些醫用工具利用人工智能來發現大數據集中的特徵,並預測個體對特定治療的反應,這是精準醫療的核心。醫療保健專業人員希望使用這種工具爲每位患者量身定製治療方案。在一篇發表在《科學》雜誌上的文章中,研究人員指出,人工智能模型可以高度準確地預測訓練樣本中所涉及患者的治療結果。但是,在處理之前未見過的患者數據時,該模型的性能會顯著下降,甚至只比隨機猜測略高。

爲了確保精準醫療的有效性,預測模型需要在不同情況下保持穩定準確性,並將偏差或隨機結果出現的可能性降至最低。

“這是一個人們還沒有意識到的大問題,”研究報告的合著者、康涅狄格州紐黑文耶魯大學精神病學家亞當·切克魯德(Adam Chekroud)表示。“這項研究基本上證明了算法仍需要在多個樣本上進行測試。”

算法的準確性

研究人員評估了一種通常用於精神病預測模型的算法。他們使用了五項抗精神病藥物臨牀試驗的數據,涉及北美、亞洲、歐洲和非洲1513名被診斷患有精神分裂症的志願者。這些試驗在2004年至2009年間進行,測量志願者服用三種抗精神病藥物中的一種之前以及四周後的症狀。

研究團隊用數據集訓練算法,來預測患者經過四周抗精神病藥物治療後的症狀改善程度。首先,研究人員在開發算法的試驗中測試了算法的準確性,將預測結果與試驗中記錄的實際效果進行比較,發現準確率很高。

然後,他們使用了多種方法來評估這一人工智能模型分析新數據的準確性。研究人員用一個臨牀試驗的數據子集訓練模型,然後將其應用於同一試驗的另一個數據子集。他們還用一次試驗或一組試驗的所有數據訓練算法,然後通過其他臨牀試驗數據測試模型性能。

結果發現,人工智能模型在這些測試中表現不佳,當應用於未經訓練的數據集時,模型產生的預測似乎幾乎是隨機的。研究團隊使用不同的預測算法重複進行,但得到的結果都差不多。

更好的測試

這項研究的作者表示,他們的發現凸顯出臨牀預測模型應該如何在大型數據集上進行嚴格測試,確保它們的可靠性。一項對308個精神病預後臨牀預測模型的系統評測發現,只有大約20%的模型在開發所用樣本之外的數據集上進行了驗證。

“我們應該更像研發藥物那樣思考模型開發,”切克魯德說。他解釋說,許多藥物在早期臨牀試驗中表現不錯,但在後期階段就會出現問題。“我們必須嚴格遵守如何開發以及測試這些算法的原則,不能只做一次就認爲這是真的。”(辰辰)