DeepSeek震撼硅谷,從數據到技術,Meta緊急組建多個小組研究複製

DeepSeek引硅谷巨震,Meta陷入恐慌,緊急組建研究小組。

近日,中國AI公司DeepSeek發佈的R1模型(DeepSeek R1)熱度飆升。1月24日,在專業大模型排名Arena上,DeepSeek-R1基準測試已經升至全類別大模型第三,其中在風格控制類模型(StyleCtrl)分類中與OpenAI o1並列第一;而其競技場得分達到1357分,略超OpenAI o1的1352分。

據報道,面對DeepSeek的挑戰,Meta迅速採取行動,已組建了多個“小組”來研究DeepSeek的技術細節。

其中兩個小組正在試圖瞭解DeepSeek如何降低訓練和運行大模型的成本,第三小組正在試圖弄清楚DeepSeek使用的數據集,第四小組則正在考慮基於DeepSeek模型屬性重構Meta的Llama模型。

此外,DeepSeek此前在技術論文中介紹的降本方法,也已被Meta的研究小組列爲重點研究對象,包括模型蒸餾(distillation)等技術。Meta希望通過這些努力,能夠在即將發佈的Llama 4中實現技術突破。

Meta的AI基礎設施總監Mathew Oldham等高層領導此前公開表示,他們對Llama的表現感到擔憂,擔心其無法與DeepSeek競爭。

Meta的開發者社區也反映,儘管Llama模型是免費的,但其運行成本往往高於OpenAI的模型——因爲OpenAI能夠通過批量處理數百萬用戶的查詢來降低成本,而使用Llama的小型開發者則無法達到這種規模。

OpenAI高級研究員Noam Brown上週在X上表示: