對話周鴻禕、方漢:DeepSeek能否改寫AI戰局?
“DeepSeek在基座大模型上做出的突破,是天才級別的。”
最近,國產大模型公司深度求索(DeepSeek)引發的輿論震動,讓今年春節成爲“最有AI味的年”。談到DeepSeek旗下標誌性大模型DeepSeek-R1,多位業內人士向澎湃新聞記者表達了高度讚賞。
1月28日,大洋彼岸的人工智能巨頭Open AI CEO山姆·奧特曼(Sam Altman)發文迴應DeepSeek帶來的挑戰:“DeepSeek推出的R1令人影響深刻,我們當然會推出更好的模型,有新的競爭對手也令人振奮。”
國內某Top2 AI初創企業也對記者坦言,他們感受到了同行帶來的壓力:“後續我們會加快產品研發的角度。”
與之對比的是在產品上的快速迭代:除夕當天,DeepSeek悄無聲息地發佈開源多模態模型Janus-Pro。此前1月27日早間,DeepSeek應用曾登頂蘋果中國地區和美國地區應用商店免費APP下載排行榜,在美區下載榜上超越ChatGPT。
“多模態考驗的是對人類世界和環境的認知,相信DeepSeek在此刻發佈多模態大模型,一定有自己的信心和底氣。”1月28日,360創始人周鴻禕告訴澎湃新聞記者,“中國大模型技術復仇者聯盟戰隊裡一定有DeepSeek的一份,因爲這家公司和它的創始人非常低調,他們技術能力和未來前景被市場嚴重低估了。”
“現在硅谷都把DeepSeek叫做來自東方的神秘力量,中國AI公司的創造力已經剎不住車了。”周鴻禕表示。
AI軍備競賽已進入深水期,曾有觀點認爲,在字節、阿里、騰訊等大廠包圍下,AI創業公司將面臨洗牌,難逃被併購的命運,而殺出重圍的卻是似乎“名不見經傳”的DeepSeek。DeepSeek走紅的秘密是什麼,爲國內大模型行業帶來哪些啓示?
DeepSeek優秀在哪?
“DeepSeek公司高層明確對商業化不感興趣,只想做技術研究,這樣的高度一般人達不到。”
有了解DeepSeek人士向記者透露,自己曾經面試過一些AI領域的人才,最後拒絕了自己的公司,去了DeepSeek,理由是他們科研氛圍好,是一個真正做事的團隊。
“從薪資來看,其實他們只是業內中流水平,高,但並不是最高的。”他向記者坦言,“如果說人才密度,可能還比不上頭部大廠。並不是大廠的人不聰明,而是大廠的聰明人花了太多精力在技術之外。大廠雖然薪資高,但是內部鬥爭也多,想要真正專心做事,反而不如這樣的技術公司純粹。”
儘管在外界眼中,DeepSeek彷彿是一夜爆紅,但此前早有多項成就引發行業關注。2024年,在大模型行業率先發起價格戰的正是DeepSeek,但並未引起外界關注,此後智譜、字節跳動等跟進,才引發整個行業的降價潮流。
當時的DeepSeek,還未真正讓他人看到它的實力。2024年,智譜AI COO張帆在接受採訪時曾開玩笑說:“我們是主流廠商中第一個降價的。”當時有人提醒,首個降價的廠商其實是DeepSeek,張帆表示:“我說的是主流廠商”。
DeepSeek最引人矚目的,是其顯著降低了大模型開發成本。1月20日,DeepSeek正式發佈推理模型R1,其API(編程接口)服務定價爲每百萬輸入tokens(詞元)僅需1元(緩存命中)/4 元(緩存未命中),每百萬輸出tokens爲16元。DeepSeek的定價約等於Meta旗下Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。
因此,DeepSeek也被戲稱爲AI界的“拼多多”,實現高效低價背後的原因是什麼?國內某知名AI公司董事長向記者解釋稱,這主要得益於DS-V3的多項技術創新。首先,DeepSeek採用MoE架構(Mixture of Experts,混合專家模型),通過將大模型變成多個稀疏的專家小模型,並通過多個模型聚合來達到和傳統大模型相當的能力,有效降低了計算成本。
其次,DS-V3在訓練方法上進行了重要創新。採用FP8混合精度訓練,效率是常規BF16精度的約1.6倍;同時優化了並行流水線,提升了訓練和推理效率。這些優化加上訓練的一次成功,使得V3的訓練成本降至約550萬美元。
而在最新發布的DS-R1中,DeepSeek採用了創新性的GRPO(組相關策略優化)強化學習方法,無需龐大的人類標註數據庫。通過讓模型自主生成並驗證結果的方式,R1展現出了強大的推理能力。隨着訓練步數增加,其思維鏈(Chain-of-Thought,CoT)的長度不斷增長,模型甚至開始在推理過程中進行自我反思。
“DeepSeek R1的成功意味着,如果基礎模型能力夠強,在強化學習過程中它就能自己學會推理。這也是爲什麼國外AI圈的人看到DS-R1後驚呼AGI竟然離我們如此之近的原因:因爲R1證明了能力足夠強的模型是可以不依靠人類自己進化的,儘管現階段的reward還是需要標籤。”上述人士表示。
《麻省理工科技評論》分析稱,DeepSeek R1 採用類似ChatGPT o1使用的“思維鏈”方法,它可以通過逐步處理查詢來解決問題。這可能是美國對華高端AI芯片出口管制帶來的意外結果,迫使中國的初創企業“優先考慮效率”。
有意思的是,如果問DeepSeek自己R1模型相比OpenAI有哪些特點,DeepSeek的回答是,創新點可能在“注意力機制”和“參數效率”,R1在處理長文本時更聚焦關鍵部分(比如法律合同中的條款),減少計算量,類似“讀書時用熒光筆劃重點,只反覆看關鍵段落”。在參數效率方面,用類似MoE(混合專家系統)的結構,把模型分成多個“子專家”,不同任務激活不同部分,既節省算力又提升效果(類似“看病時分科室掛號,心臟問題找心內科專家,不用讓全科醫生從頭學到尾”)
DeepSeek自我評價道,“DeepSeek像一家精品店,在特定領域更專精;OpenAI像大型超市,啥都有但價格高。”
爲什麼是DeepSeek?
談到DeepSeek,離不開創始人樑文鋒。這位在外人眼中樸素、低調的“85後”企業家,最近也站在了媒體的聚光燈下。
根據公開報道,樑文鋒從小就表露在數學領域的天賦和興趣,曾是高考狀元,在浙大求學期間就與同學一起積累市場行情數據和探索全自動量化交易。
2008年金融危機期間,他帶領團隊使用機器學習等技術探索全自動量化交易。2015年創立對衝基金“幻方量化”,2021年資產管理規模突破千億大關。2023年創辦深度求索DeepSeek,專注於通用人工智能(AGI)的突破。
“一件激動人心的事,或許不能單純用錢衡量。就像家裡買鋼琴,一來買得起,二來是因爲有一羣急於在上面彈奏樂曲的人。”在公開採訪中,樑文鋒本人曾經如此談論他心中的AGI(通用人工智能)。
在另一段採訪中,他提到,中國AI不可能永遠處在跟隨的位置,“我們經常說中國 AI 和美國有一兩年差距,但真實的Gap(差距)是原創和模仿之差。如果這個不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。”
他認爲,英偉達的領先,不只是一個公司的努力,而是整個西方技術社區和產業共同努力的結果,“中國AI的發展,同樣需要這樣的生態。很多國產芯片發展不起來,也是因爲缺乏配套的技術社區,只有第二手消息,所以中國必然需要有人站到技術的前沿。”
樑文鋒不打無準備之仗。幻方量化官網顯示,其在2018年就確立以AI爲公司的主要發展方向。
2020年開始,幻方累計投資超億元、佔地面積相當於一個籃球場的AI超級計算機“螢火一號”正式投入運作,2021年,幻方投入十億建設“螢火二號”,以“任務級分時共享”爲核心理念,調度系統秒級響應,平臺配備強大的軟件層支持:高性能算子庫(hfai.nn)、分佈式訓練通訊框架(hfreduce)、專爲AI開發而生的大容量高帶寬文件系統(3FS),讓AI模型能自如拓展到多節點之上,進行大規模並行訓練,算力擴容翻倍,集羣連續滿載運行,平均佔用率達到96%以上。
樑文鋒曾在採訪中表示,最早的一張卡到1萬張卡,這個過程是逐步發生的,而這裡面主要是好奇心驅動,“對AI能力邊界的好奇”。
“DeepSeek最令美國科技圈震驚的是,在開源大模型上做到了突破性的領先。”崑崙萬維CEO方漢向澎湃新聞記者評論稱,“以往美國在基座大模型上處於絕對優勢,例如ChatGPT,後續的大模型都是基於ChatGPT進行改進和優化。此前,在開源大模型領域最領先的是Meta的Llama系列,但如今DeepSeek徹底超越了Llama,這意味着,後續的行業大模型可能將基於DeepSeek進行深度開發。”
“中國可能取代美國在基座大模型的統治地位,這是美國十分擔憂的。”方漢坦言。
美國AI初創公司Perplexity首席執行官在接受採訪時認爲,DeepSeek的模型堪稱“瘋狂”。“這些中國團隊推出了一個瘋狂的模型,API價格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度極快,並且在某些基準測試中與GPT-4相當,甚至更好。他們總共只花了500萬美元的計算機預算,就做出瞭如此驚人的模型,並且免費公開了技術論文。”
據美國全國廣播公司(NBC)報道,美國總統特朗普當地時間1月27日在佛羅里達州邁阿密舉行的共和黨會議上表示,中國人工智能初創公司DeepSeek的AI技術給美國科技企業敲響“警鐘”,美國公司“需要專注於競爭以贏得勝利”。
“DeepSeek效應”如何發酵
DeepSeek的成功,暴擊AI硬件龍頭英偉達。
當地時間1月27日,英偉達(Nasdaq:NVDA)股價暴跌16.86%收於每股118.58美元,跌至過去10月以來的最低點;總市值2.90萬億美元,一日蒸發5900億美元(約合人民幣4.28萬億元),創史上最大單日個股市值蒸發紀錄。
英偉達的暴跌也使得創始人黃仁勳的身家大幅縮水210億美元。DeepSeek在國際範圍內的成功,也爲中國AI初創企業帶來“DeepSeek效應”。
“我對AGI的判斷,是一場馬拉松。目前技術仍然還沒有收斂,算力是一個重要的影響因素。”國內AI頭部初創企業、面壁智能CEO李大海告訴記者。
他介紹,就像DeepSeek一樣,面壁也在旗下開發的MiniCPM-S系列引入自研稀疏化方案,通過將激活函數替換爲ReLU及通過帶漸進約束的稀疏感知訓練來提升大模型的稀疏性,能將Llama、MiniCPM 稀疏度提升至接近 90%,並且也能夠在保持模型原有水平的基礎上,有效降低模型推理的開銷。
“DeepSeek的成功,說明中國人工智能企業已進入世界第一梯隊。儘管我們要承認中美在人工智能上確實有原創性的差距,但是R1的發佈將會很大程度影響這個行業的發展,2025年中國在AI領域的創新相當值得期待。”資深AI從業者、獵豹移動董事長兼CEO傅盛表示。
而方漢認爲,要談中國在AI上的能力完全趕超美國,還爲時尚早,但是DeepSeek的表現,說明中國AI在發展空間上確實爲人矚目。中國擁有最龐大的AI工程師隊伍和最多的AI論文數量,“在AI領域,中國和美國的優勢相比其他國家是巨大的。”
“如果要雙方真正平起平坐地競爭,還是需要解決算力卡脖子問題。”方漢坦言,“但是我預計將在2-3年內徹底解決這個問題。相信在不久之後,能看到兩個國家真正實現你追我趕、公平競爭。”
(澎湃新聞)