不會數學了! GPT-4“智力”大幅下降

參考消息網7月22日報道 據美國《財富》雜誌網站7月20日報道,斯坦福大學的一項研究發現,廣受關注的聊天機器人ChatGPT在6月份執行某些任務的表現比3月份的時候變得更糟了。

該研究對由開放人工智能研究中心(OpenAI)創造的這款聊天機器人數月時間內在執行4項“差異化”任務——解數學題、回答敏感問題、編寫軟件代碼、視覺推理——的表現進行了比較。

研究人員發現這項技術執行某些任務的能力存在巨大波動——即“漂移”。該研究考察了OpenAI技術在這一時間段的兩個版本:GPT-3.5和GPT-4。最值得注意的結果來自對GPT-4解答數學題能力的研究。在研究過程中,研究人員發現,在3月份時GPT-4能夠在97.6%的答題時間裡正確識別出數字17077爲質數。但是僅僅3個月後,其答題的正確率卻驟降至極低的2.4%。與此同時,GPT-3.5的表現軌跡則幾乎相反,其在3月時回答同一問題的正確率僅爲7.4%,而在6月時的回答大多是正確的,答題正確率達86.8%。

當研究人員要求這兩個版本編寫代碼和接受視覺推理測試——即要求該技術預測某個圖案中的下一個形象——時,出現了類似的差異化結果。

研究報告的作者之一、斯坦福大學計算機科學教授詹姆斯·鄒(音)說,“如此巨大的差異程度”對於“尖端的ChatGPT”而言是意想不到的。

詹姆斯·鄒說:“當我們在對大型語言模式進行調整,以改善其在某些任務中的表現時,這樣做實際上可能會有許多意想不到的後果,它們或許會影響這個模型在處理其他任務時的表現。在人工智能模型如何回答問題方面,存在各式各樣耐人尋味的相互依賴,它們可能在一定程度上導致我們所觀察到的這些每況愈下的表現。”