服務器崩了,一夜出圈!來自中國的AI“神器”刷屏硅谷

本報記者金婉霞

每一次,關於AI大模型的迭代進展都能牽動市場神經;這一次,是中國企業“技驚四座”。

1月26日,有網友表示,DeepSeek崩了,提示服務器繁忙。隨後,DeepSeek迴應稱,確實出現了局部服務波動,但問題在數分鐘內得到解決;DeepSeek同時表示,此次事件可能與新模型發佈後的訪問量激增有關。另據記者觀察,截至1月16日16時30分,DeepSeek在蘋果應用商店免費榜排行的下載排名已至第四位,僅次於字節跳動旗下的AI助手豆包。

怎麼回事?一夜之間,“名不見經傳”的DeepSeek就“霸屏”了?

這與一款大模型有關。

公開資料顯示,DeepSeek的開發者爲杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”),該公司成立於2023年7月份。企業官方微信公衆號信息顯示,今年1月20日,深度求索正式發佈DeepSeek-R1大模型,並同步開源模型權重。“DeepSeek-R1在後訓練階段大規模使用了強化學習技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩OpenAIo1正式版。”深度求索在發佈信息中表示。

DeepSeek-R1發佈後,首先點燃了海外市場熱情。

在美國硅谷,多位人工智能行業意見領袖對DeepSeek-R1表達由衷讚美。微軟CEO薩蒂亞・納德拉公開表示:“他們切實有效地開發出了一款開源模型,在推理計算方面表現出色,且超級計算效率極高。”曾投資過OpenAI的投資人馬克·安德里森在社交平臺表示,DeepSeek-R1是我見過的最令人驚歎,最令人印象深刻的突破之一,並且是開源的,是對全世界的大禮。

在歐洲,DeepSeek-R1也是好評不斷。英國人工智能諮詢公司DAIR.AI的聯合創始人兼人工智能研究員埃爾維斯·薩拉維亞在社交平臺評價DeepSeek-R1表示,“這太瘋狂了,完全出乎意料”。德國埃爾蘭根馬克斯普朗克光科學研究所人工智能科學家實驗室負責人馬里奧·克倫表示:“DeepSeek-R1的開放性非常了不起。”

從各類觀點來看,DeepSeek-R1“出圈”的核心秘笈在於技術實力。

2024年12月底,DeepSeek曾推出了一個免費的開源大型語言模型,據稱,該模型的開發僅用了兩個月的時間,花費不到600萬美元就構建完成,且僅使用了英偉達的低性能芯片H800s——而眼下,大多數大模型的迭代依賴於先進算力,成本巨大。此次,新推出的DeepSeek-R1在性能上更比肩OpenAIo1正式版,在第三方大模型測評中,DeepSeek-R1在風格控制類模型這一評價指標上與OpenAIo1的並列第一。

一位Meta的工程師在行業社區論壇中這樣寫道,“Meta的生成式AI部門正處於恐慌中。這一切始於DeepSeek:那個不知名的中國公司,僅有550萬美元的訓練預算。工程師們正在瘋狂地剖析DeepSeek,並試圖從中複製一切可能的東西。”