DeepSeek在海內外徹底爆發,但它不需要被神話
1月27日,DeepSeek AI智能助手同時衝上中美iOS免費應用排行榜第一,這是中國應用首次達成這一成績。
與此同時,與這家大模型公司相關的多個詞條擠入微博熱搜,其中一條是,“DeepSeek徹底爆發”。這背後有社交平臺涌入的萬千情緒:開源追上閉源,中國大模型公司超越OpenAI。
DeepSeek真的爆發了嗎?
事實上,DeepSeek在這兩天並沒有做什麼特別的事,將它推進輿論風暴中心的力量主要來自於Meta。
大概三天以前,在美國匿名職場社區teamblind上,有Meta員工直言,DeepSeek最近的一系列動作讓Meta的生成式AI團隊陷入了恐慌,前者低成本的訓練工作,讓後者難以解釋自己超高預算的合理性。
“工程師們正在瘋狂地分析DeepSeek,試圖從中複製任何可能的東西。”
隨即,Meta首席人工智能科學家楊立昆(Yann LeCun)在X(原推特)平臺上表示,對於那些認爲“中國在人工智能領域正在超越美國”的人,正確的想法是,“開源模型正在超越閉源模型”。這番表態直指DeepSeek近來在開源模型上的表現。
DeepSeek並不是突如其來“驚豔”所有人,從DeepSeek-V2開始,這家公司已經被硅谷視爲一股東方的神秘力量。國內大模型行業第一場真正意義上的“降價潮”,也是由這家公司憑藉“MoE+MLA”這一架構創新率先發起。
它近期之所以再度被熱議,主要在於它過去一個月內相繼發佈了DeepSeek-V3和R1兩款大模型產品。
2024年底,DeepSeek發佈新一代MoE模型DeepSeek-V3,它擁有6710億參數,其中激活參數爲370億,在14.8萬億token上進行了預訓練。
在知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近當前表現最好的Claude-3.5-Sonnet-1022,在代碼能力上同樣稍好於後者。而在數學能力上,V3已明顯領先其他開閉源模型,包括LIama3.1 405B-Inst,GPT-4o 0513,Qwen2.5 72B-Inst。
這已經是一個足夠好的開源模型,但真正讓其受到大量關注的,是DeepSeek在技術論文中表示,DeepSeek-V3模型總訓練成本爲557.6萬美元,完整訓練消耗了278.8萬個GPU小時,幾乎是同等性能水平模型訓練所需十分之一。這也是DeepSeek-V3引起Meta關注的核心表現之一。
讓這番關注量級再上一層樓的,是DeepSeek一週以前發佈的推理模型R1。
1月20日,DeepSeek發佈性能對齊OpenAI-o1正式版的DeepSeek-R1,並同步開源模型權重。它在數學、代碼、自然語言推理等任務上與OpenAI-o1-1217基本持平,尤其在AIME 2024(美國數學邀請賽)、MATH-500、SWE-Bench Verified(軟件開發領域測試集)三項測試集上以微弱優勢取勝。
作爲對R1能力的一種驗證,由660B版本R1蒸餾得到的多個小尺寸模型中,32B和70B兩款模型在多項能力上能夠與OpenAI o1-mini對標。並且,這些蒸餾模型分屬Qwen系列和Llama系列,其中,14B Qwen系列蒸餾模型,其各項推理類測試集表現已經明顯好於QwQ-32B-Preview。
它當時更引入注目的是同步開源了DeepSeek-R1-Zero,這是一個僅在預訓練基礎上加入了RL(強化學習)而沒有經過SFT(監督微調)的成果。
由於沒有人類監督數據介入,R1-Zero在生成上可能存在可讀性較差、語言混雜的現象,但該模型仍然足以對標OpenAI-o1-0912。它更重要的意義是探索出了僅通過強化學習訓練大語言模型就能獲得推理能力的技術可能性,爲相關後續研究提供了重要基礎。
在訓練方式上,DeepSeek利用了數千條長CoT冷啓動數據,先是對DeepSeek-V3-Base這一基礎模型進行微調。隨後進行面向推理的大規模RL訓練,並引入語言一致性獎勵克服語言混雜問題。經歷監督微調之後,R1又進行了適用於所有場景的強化學習,對推理數據和一般數據採用不同的獎勵規則。
另外,R1在強化學習中加入了組相對策略優化算法(Group Relative Policy Optimization,GRPO),從效果上來說,它能夠優化策略、提高樣本效率和增強算法穩定性等。
至此,回到DeepSeek的近期表現上,它的確刷新了開源大模型的最好性能表現,但一名大模型行業投資人對界面新聞記者表示,仍要理智看待DeepSeek,這家公司不需要被神話。
他認爲,DeepSeek-V3的確是當前最好的開源模型,但說它能夠與頭部閉源模型打擂臺還爲時尚早。另外,在GPT-4出現近兩年時間裡,開源大模型的算法、框架及系統都在同步更新迭代,DeepSeek此時做出大概爲GPT-4三分之一參數大小的V3模型,實際上是一件順其自然的事。
楊立昆也有類似的觀點表達,他在前述推文中提到,DeepSeek自身也“從開源研究和技術中獲益”。“他們提出了新想法,並基於其他人的工作進行創新。由於他們的工作是公開和開源的,所有人都能從中獲益。這就是開源研究和開源技術的力量。”
一名AI從業者則對界面新聞表示,在前期探索者的基礎上,DeepSeek的確可以少做很多倍次實驗。
而對於R1,它在沒有加入過程獎勵模型(只有結果獎勵模型)和蒙特卡洛樹搜索等更復雜技術的前提下,便實現了o1水平的推理性能。
並且,這種純RL訓練方式讓R1自己學會了Longer-chain reasoning(長鏈推理)和Reflection(反思),這是一種“自我進化”能力,被認爲是大語言模型學會自我反思、可以自我糾錯的“aha moment”。
不過,在一些行業人士看來,R1也可能存在自己的侷限。一方面,過程獎勵和樹搜索技術,是否是模型進一步提高推理能力的關鍵方法,外界還無從得知。另一方面,前述行業人士對界面新聞記者指出,R1目前的知識範圍不會超過OpenAI o1。
事實上,前不久在OpenAI年底發佈季上亮相的o3和o3-mini,性能相比o1又猛長了一大截。從o1到o3,OpenAI公佈的間隔時間僅有三個月,顯然強化學習帶來的推理階段scaling up的技術範式,要比GPT系列模型以年爲單位的預訓練範式的節奏快得多。這意味着國內大模型公司仍有加速創新的競爭壓力。
技術熱議之外,真正讓DeepSeek接住這番“潑天流量”的,也在於這家公司近期戰略性上線了C端(用戶)智能助手應用,讓大衆可以直觀感受V3和R1的技術價值。這股熱浪甚至一度至其服務“宕機”。
DeepSeek AI智能助手同樣是一款ChatBot類應用,在社交平臺上,用戶分享自己與它的對話也成爲一種熱潮。性能強大、價格便宜是大家普遍強調的特點,遊戲科學創始人兼CEO、《黑神話:悟空》製作人馮驥將其形容爲“可能是個國運級別的科技成果”。但除此以外,一些用戶評論顯示,在不同場景需求下它也存在自己的短板。
從一家公司的發展脈絡來看,DeepSeek真正的價值還體現在,它證明了一個短小精悍、扁平高效的組織架構,可能纔是面向AGI(通用人工智能)的大模型研發可以依賴的創業形態。
在DeepSeek發佈R1後不久,Meta首席執行官扎克伯格表示,Meta計劃在2025年投入超過600億美元,進一步加大對人工智能的投資。由此,DeepSeek的低訓練成本和高創新效率對於AI大模型行業的價值可見一斑。
如今,值得行業正視的現實是,DeepSeek從創業理念、人才組織再到研發成果,都是中國企業中可以面向OpenAI、Meta等開閉源大模型公司與之一戰的存在,但無需藉此將它推上神壇。
這是DeepSeek從成立之初就已經內化的目標。創始人樑文峰在此前接受採訪時表示,“我們認爲隨着經濟發展,中國也要逐步成爲貢獻者,而不是一直搭便車。”