DeepSeek“恐懼感”支配硅谷!Meta被曝組建4個小組專門研究

中國企業深度求索開發的大模型DeepSeek持續引發業內震動。硅谷對DeepSeek的“恐懼”不僅是說說而已,巨頭Meta已成立專門小組展開研究和學習。

1月27日,據Information網站,臉書母公司Meta成立了四個專門研究小組來研究量化巨頭幻方量化旗下的國產大模型DeepSeek的工作原理,並基於此來改進旗下大模型Llama。

其中兩個小組正在試圖瞭解幻方量化如何降低訓練和運行DeepSeek的成本;第三個研究小組則正在研究幻方量化可能使用了哪些數據來訓練其模型;第四個小組正在考慮基於DeepSeek模型屬性重構Meta模型的新技術。

Deepseek來自國產大模型公司深度求索,其背後是量化巨頭幻方。1月20日,DeepSeek正式發佈推理大模型DeepSeek-R1。作爲一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能能夠比肩OpenAI o1模型正式版,並採用MIT許可協議,支持免費商用、任意修改和衍生開發等。

據DeepSeek介紹,R1的預訓練費用只有557.6萬美元,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集羣上運行55天完成,僅是OpenAI GPT-4o模型訓練成本的不到十分之一。

一經推出,DeepSeek-R1便憑藉其“物美價廉”的特性在海外開發者社區中引發了轟動,更是憑藉極低的訓練成本震撼了硅谷。

DeepSeek發佈後不久,Meta首席執行官馬克·扎克伯格就宣佈,Meta計劃在2025年投入超600億美元,加大對人工智能的投入。扎克伯格本人一直是開源模型的倡導者。

OpenAI、Meta和其他頂級人工智能團隊的開發人員一直在仔細研究DeepSeek模型,並試圖搞清楚其爲何能夠比一些美國製造的模型更便宜、更高效地運行。

OpenAI科學家Noam Brown上週在社交媒體上表示:“DeepSeek表明你可以用相對較少的計算獲得非常強大的AI模型。”

數日前,就有Meta的工程師們在匿名社交平臺TeamBlind上吐露心聲,表示DeepSeek所研發的AI模型爲其帶來了巨大壓力。

Meta首席AI科學家楊立昆(Yann LeCun)在其發表在Threads上的一篇文章中指出,比起“中國AI超越了美國”的觀點,DeepSeek-R1更重要的是證明了“開源模型正在超越專用模型”:“DeepSeek得益於開源研究和開源項目(例如PyTorch和來自Meta的Llama)。這就是開放研究與開源的力量。”

DeepSeek的R1模型本身就是開源的,Meta的 Llama模型也是如此。而最初以開源爲使命的OpenAI,近年來已經轉向了閉源模式。楊立昆表示,這並不是中國的人工智能“超越美國”,而是“開源模型戰勝了專有模型”。