DeepSeek不如歐美AI

路透廿九日報導，媒體監管機構「新聞守門人」（NewsGuard）同日公佈人工智慧（ＡＩ）聊天機器人實測報告。在美國、歐洲和中國大陸研發的十一款ＡＩ聊天機器人中，就傳遞新聞與資訊的準確率上，中國ＡＩ新創公司深度求索的ＡＩ模型DeepSeek僅排第十。

該報告指稱，DeepSeek落後美國OpenAI的ChatGPT及Google的Gemini等美歐競爭者。DeepSeek在回答新聞相關的提示指令（prompt）時，百分之卅的時間會重複錯誤說法及虛假陳述，百分之五十三的時間會給出模糊或無用的答案，失效率達百分之八十三，即準確率僅百分之十七。

前述實測結果顯示，DeepSeek落後OpenAI的ChatGPT及Google的Gemini等西方國家聊天機器人。西方各主要聊天機器人的平均失效率達百分之六十二，低於DeepSeek的百分之八十三。

深度求索則未立即對路透提出的前述相關提問置評。

新聞守門人表示，對DeepSeek運用在評估西方國家公司聊天機器人時相同的三百個提示指令，包括根據網路上散播的十個錯誤說法給出卅個提示指令。這些錯誤說法有去年十二月四日美國聯合健康保險公司執行長湯普森在紐約市希爾頓飯店外遭槍殺案，以及亞塞拜然航空公司八二四三號航班去年十二月廿五日在哈薩克墜毀事故。

不過投資研究公司D. A. Davidson分析師路里亞強調，DeepSeek（在聊天機器人研發競爭中有所）突破的重要意義，並不在於準確回答跟中國新聞有關的問題，而是在於其只以同類ＡＩ模型卅分之一的（研發）成本回答問題。

相關資訊