AI美國隊輸慘了!陸工程院院士揭密DeepSeek狂贏3大關鍵
專家表示,大陸DeepSeek使用「開源模型」使任何人都能受益。(示意圖/達志影像/shutterstock)
大陸AI新創公司DeepSeek(深度求索)憑藉強大的研發能力和低廉的成本優勢,不僅讓美國科技巨頭感到擔憂,更進一步撼動美國在AI領域的主導地位。大陸專家指出,DeepSeek成功的關鍵在於其技術創新、成本低廉以及運用開源模型。
DeepSeek的應用程式在中國和美國的蘋果App Store免費APP排行榜上都位居榜首;在美國市場,甚至超越了當紅的ChatGPT。
新浪科技引述大陸工程院院士、清華大學電腦系教授鄭緯民的看法,點出了DeepSeek成功主要集中在三個面向。
一、技術層面:DeepSeek核心自主研製的DeepSeek-V3和DeepSeek-R1 兩個模型,其效能與OpenAI的4o和o1模型相當。
二、成本低廉: DeepSeek研發出的這兩個模型成本僅爲OpenAI 4o和o1模型的十分之一左右。
三、開源模型: DeepSeek將這兩個強大的模型技術開源,讓廣大的AI團隊可以利用這些最先進且成本最低的模型,開發更多具有創新性的AI應用程式。
DeepSeek如何實現模型成本降低呢?鄭緯民指出,DeepSeek自主研發的MLA架構和 DeepSeek MOE架構,對於降低其模型訓練成本發揮了關鍵作用。
他表示,「MLA 主要透過改造注意力算子壓縮 KV Cache 大小,實現了在相同容量下可以儲存更多的KV Cache。此架構與DeepSeek-V3模型中的FFN層改造相配合,實現了一個非常大的稀疏MoE層。這是DeepSeek訓練成本低廉的最關鍵原因。」
據瞭解,KV Cache是一種優化技術,常用於儲存人工智慧模型運作時產生的token的鍵值對(即key-value數值),以提高運算效率。
在模型運算過程中,KV cache會在模型運算過程中扮演一個記憶體庫的角色,以儲存模型之前處理過的token鍵值,透過模型運算計算出注意力分數,有效控制被儲存 token 的輸入輸出,透過「以存換算」避免了大多數大模型運算每次都是從第一個 token 開始運算的重複計算,提升了算力使用效率。
此外,據鄭緯民透露,DeepSeek也解決了「非常大且非常稀疏的MoE模型」所使用的性能難題,而這也成爲「DeepSeek訓練成本低最關鍵的原因」。
他強調,「DeepSeek的厲害之處是訓練MoE的能力,成爲公開MoE模型訓練中第一個能訓練成功這麼大MoE的企業。」
圖靈獎得主、主導Meta AI研究的首席科學家楊立昆(Yann LeCun)日前表示,DeepSeek成功的最大收穫並非中國對其他國家帶來更大威脅,而是AI開源的價值使任何人都能受益。
楊立昆在Threads寫道,「對於那些看到DeepSeek表現並認爲『中國在AI領域正超越美國』的人而言,你的解讀錯了;正確解讀應是『開源模型正超越專有模型』」。