科研也完了,AI暴虐170位人類專家!Nature子刊:大模型精準預測研究結果,準確率高達81%

新智元報道

編輯:LRS

【新智元導讀】知識密集型工作也敗了!大型語言模型在預測神經科學結果方面超越了人類專家,平均準確率達到81%,而人類專家僅爲63%;模型通過整合大量文獻數據,展現出了驚人的前瞻性預測能力,預示着未來科研工作中人機協作的巨大潛力。

在現代化工具的幫助下,科研人員的羣體規模、效率都有顯著提升,發表科學文獻的數量幾乎是呈指數級增長,而人類的閱讀效率卻幾乎沒有提升,新入行的研究人員一下子就要面對過去數十年的研究成果。

爲了更快地掌握行業動態,研究者往往會考慮優先閱讀那些更知名的、影響力更大的論文,從而會忽視掉很多潛在的、具有顛覆性的發現。

以ChatGPT爲首的大模型算是一個很有潛力的輔助閱讀、科研的解決方案,其通用能力覆蓋了專業考試、有限推理、翻譯、解決數學問題,甚至還能寫代碼。

已有的研究考察了大模型在科研領域的表現,但基準數據集大多屬於「回顧性質」的,比如MMLU、PubMedQA和MedMCQA,主要以問答的形式來評估模型的核心知識檢索和推理能力,

然而,這些基準都不適合評估模型前瞻的能力,輔助科研需要整合嘈雜但相互關聯的發現,比人類專家更擅長預測新結果。

最近,倫敦大學學院(UCL)的研究人員在Nature Human Behaviour期刊上發佈了一個前瞻性基準BrainBench,在神經科學領域考察模型的預測能力。

論文鏈接:https://www.nature.com/articles/s41562-024-02046-9

結果發現,大模型的表現遠遠超越了人類專家水平,平均準確率達到了81%,而人類的平均準確率只有63%

即使研究團隊將人類的反饋限制爲僅對特定神經科學領域、具有最高專業知識的人,神經科學家的準確率仍然低於大模型,爲 66%

和人類專家類似的是,如果大模型對預測結果表示具有高度自信時,回答結果的正確率也更高,也就是說,大模型完全可以輔助人類做科研新發現。

最重要的是,這種方法並不特定於某一個學科,其他知識密集型任務上也可以使用。

科研結果預測

即使是人類專家,在神經科學領域進行預測時,仍然是非常有挑戰性的,主要有五個難題:

1. 領域內通常有成千上萬篇的相關科學論文;

2. 存在個別不可靠的研究結果,可能無法複製;

3. 神經科學是跨領域學科(multi-level endeavour),涵蓋行爲(behaviour)和分子機制(molecular mechanisms);

4. 分析方法多樣且可能非常複雜;

5. 可用的實驗方法很多,包括不同的腦成像技術、損傷研究、基因修改、藥理干預等。

爲了滿足對大模型的測試需要,針對上述難題,研究人員開發的BrainBench基準總共納入了200個由人類專家精心設計的、2023年發表在《神經科學雜誌》上的測試案例,以及額外100個由GPT-4生成的測試案例,涵蓋了五個神經科學領域:行爲/認知、系統/迴路、疾病神經生物學、細胞/分子以及發展/可塑性/修復。

對於每個測試案例,研究人員會修改已發表的摘要,創建一個變更後的版本,在不改變方法和背景的情況下,大幅改變研究結論。

比如說,與原始摘要相比,變更後的摘要可能會交換兩個大腦區域在結果中的作用,反轉結果的方向(將「減少」替換爲「增加」)等。任何改動都需要保持摘要的連貫性,有時還需要進行多次改動(比如將多個減少替換爲增加)。

也就是說,變更後的摘要需要在實證上有所不同,但邏輯上並不矛盾。

測試者需要在原始摘要和修改版本之間做出選擇,人類專家和大型語言模型的任務是從兩個選項中選擇正確的,即原始版本;人類專家需要做出選擇,並提供信心和專業水平的評分;大型語言模型則根據選擇的摘要的困惑度(即模型認爲文本段落的驚訝程度較低)來評分,自信程度與兩個選項之間困惑度差異成正比。

部分GPT-4提示如下:

實驗結果

人類神經科學專家經過專業能力和參與度的篩選,共有171名參與者通過了所有檢查並被納入分析結果,大多數人類專家是博士生、博士後研究員或教職/學術人員。

在BrainBench上,大型語言模型的性能表現都超過了人類專家,平均準確率爲81.4%,而人類專家的平均準確率爲63.4%;當把人類回答限制在那些自報專業水平在前20%的測試項時,準確率上升到了66.2%,但仍然低於大型語言模型的水平。

參數較小的模型,比如70億參數的Llama2-7B和Mistral-7B,表現得與更大的模型相當,其性能也比尺寸更小的模型要好,小模型可能缺乏捕捉關鍵數據模式的能力;而爲聊天或指令優化的模型表現得比基準模型要差。

研究人員推測,讓大型語言模型適應自然語言對話可能會阻礙其科學推理能力。

按子領域和參與者類型劃分時,大型語言模型在每個子領域中的表現也都優於人類專家。

在測試時,爲了防止基準測試本身可能是訓練集的一部分,研究人員採用zlib-perplexity ratio(困惑度比率)來評估大型語言模型是否記住了某些段落。

該值可以衡量文本數據不可知壓縮率與大型語言模型計算的特定數據困惑度之間的差異,如果某個段落難以壓縮,但模型給出的困惑度教低,就代表模型是通過記憶來回答問題。

從結果來看,沒有跡象表明大型語言模型見過並記住了BrainBench

研究人員還進一步確認了大語言模型在2023年早些時候發表的項目上並沒有表現得更好(2023年1月與10月相比)

總之,檢查結果表明,對於大型語言模型來說,BrainBench的數據是新的,沒見過的。

爲了評估大型語言模型的預測是否經過校準,研究人員檢查了置信度與準確性之間的關聯性,結果發現與人類專家一樣,所有大型語言模型都展現出準確性和置信度之間的正相關性。

當大型語言模型對自己的決策有信心時,更有可能做出正確的選擇。

此外,研究人員還在個體層面上擬合了模型困惑度差異與正確性之間的邏輯迴歸,以及人類置信度與正確性之間的邏輯迴歸,能夠觀察到顯著的正相關性,證實了模型和人類都是經過校準的。

參考資料:

https://www.nature.com/articles/s41562-024-02046-9

https://x.com/kimmonismus/status/1861791352142348563