DeepSeek屠殺美國AI隊! 清大教授揭3大關鍵成黑馬

▲中國AI黑馬DeepSeek震撼晶片市場。(圖/路透)

記者張靖榕/綜合報導

中國AI新創公司DeepSeek(深度求索)近期以技術創新和超低成本優勢,在人工智慧領域迅速崛起,衝擊美國科技巨頭,更可能撼動美國在AI領域的主導地位,其推出的應用程式不僅在中國蘋果App Store免費排行榜中位居榜首,更在美國市場超越當紅的ChatGPT。中國專家分析DeepSeek成功關鍵,共有3個重點。

新浪科技報導,中國工程院院士、清華大學電腦系教授鄭緯民分析,DeepSeek的成功主要來自三個核心要素:1. 技術層面突破DeepSeek核心自主研發的DeepSeek-V3和DeepSeek-R1模型,其效能已與OpenAI的4o和o1模型相當,顯示中國在AI核心技術上的自主創新能力。2. 成本低廉DeepSeek的模型訓練成本,比OpenAI相同模型還低了90%至95%,大幅降低了進入AI應用市場的門檻。3. 開源策略DeepSeek將其先進模型技術全面開源,讓全球AI開發者可以利用這些低成本、高效能的模型,推動更多創新應用的誕生。

DeepSeek能夠顯著降低模型訓練成本的關鍵,在於其自主研發的MLA(Memory-Limited Attention)架構和MoE(Mixture of Experts)架構。

鄭緯民表示,MLA架構改進了注意力算子的設計,壓縮KV Cache的大小,使相同容量能夠儲存更多的鍵值(key-value),大幅提升運算效率。

鄭緯民表示,「MLA 主要透過改造注意力算子壓縮 KV Cache 大小,實現了在相同容量下可以儲存更多的KV Cache。此架構與DeepSeek-V3模型中的FFN層改造相配合,實現了一個非常大的稀疏MoE層。這是DeepSeek訓練成本低廉的最關鍵原因。」

KV Cache技術在此過程中發揮了重要作用,它能記錄和管理模型處理過程中的歷史數據,避免重複計算,進一步提升算力使用效率。

圖靈獎得主、Meta AI首席科學家楊立昆(Yann LeCun)認爲,DeepSeek的成功並非僅意味中國在AI領域的進步,更是突顯了開源模型的重要性。他在Threads上指出,「對於那些看到DeepSeek表現並認爲『中國在AI領域正超越美國』的人而言,你的解讀錯了;正確解讀應是『開源模型正超越專有模型』。」