“價格屠夫”DeepSeek的理想主義:開源、降本與AI普惠

《科創板日報》1月28日訊 一天內登頂中美App Store免費榜、火到兩天崩潰兩次、Meta開設四個作戰室研究,近幾日以來,DeepSeek猶如一顆 “東方核彈”,引爆了全球AI圈。

DeepSeek這次引發全球震動的根源之一,就是其最新發布的開源模型DeepSeek-R1。據公司介紹,在數學、代碼、自然語言推理等任務上,DeepSeek-R1性能比肩已經能OpenAI o1正式版,並採用MIT許可協議,支持免費商用、任意修改和衍生開發等。

可以說,DeepSeek和它的大模型證明了,在“大力出奇跡”的Scaling Law之外,AI大模型或許還有另一條制勝之道、一種“DeepSeek Law”:調整改變大模型的基礎結構+有效利用有限資源。

▌“一份給全球的開源大禮”

DeepSeek的很多選擇都和國內的大模型創業公司不同,比如堅定選擇開源路線,將代碼、模型權重和訓練日誌全部公開,DeepSeek-R1自然也不例外。

對於DeepSeek-R1,多位AI行業大佬都不乏溢美之詞。

隨之而來的,是全球範圍內AI技術人員們掀起的“DeepSeek復現熱潮”:

比如UC伯克利博士生潘家怡和兩位研究人員,就在遊戲CountDown中復現了DeepSeek R1-Zero。團隊驗證了通過RL,3B的基礎語言模型也能夠自我驗證和搜索,成果出色。更重要的是,這項復現成本僅僅不到30美元。

全球最大開源平臺HuggingFace團隊,也已官宣復刻DeepSeek R1所有pipeline。復刻完成後,所有的訓練數據、訓練腳本等等,將全部開源。

“在顛覆性的技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”DeepSeek創始人樑文鋒曾這樣解釋選擇開源的原因,“開源,發論文,其實並沒有失去什麼。對於技術人員來說,被follow是很有成就感的事。開源更像一個文化行爲,而非商業行爲……我們不會閉源。我們認爲先有一個強大的技術生態更重要。”

▌技術降本造就“AI價格屠夫”

談到DeepSeek大模型,另一個被常常提到的形容詞,應該是“物美價廉”。

最新面世的這一DeepSeek-R1,API服務定價爲每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,輸出API價格僅僅只有OpenAI o1的3%。

這不是DeepSeek第一次舉起“價格屠刀”。

在去年5月,DeepSeek已經帶着開源第二代MoE大模型DeepSeek-V2,頂着“價格屠夫”、“AI界拼多多”的稱號一炮而紅——性能比肩GPT-4,但定價上每百萬token輸入1元、輸出2元(32K上下文),僅是GPT-4的近百分之一水平。

在這之後,字節跳動、百度、騰訊、阿里巴巴等互聯網大廠紛紛按捺不住,紛紛官宣大模型降價,由此打響了國內大模型價格戰。

低價背後,還是離不開“技術炫技”帶來的降本。

一個多月前DeepSeek-V3就曾引發業內高度關注,關鍵原因之一就是預訓練成本之低——這個參數量高達671B的大模型,在預訓練階段僅使用2048塊GPU訓練了2個月,且只花費557.6萬美元。與此同時,DeepSeek-V3相比其他前沿大模型,性能卻足以比肩乃至更優。

在這背後,DeepSeek-V3採用了用於高效推理的多頭潛在注意力(MLA)和用於經濟訓練的DeepSeekMoE。研發團隊證明,多Token預測目標(Multi-Token Prediction,MTP)有利於提高模型性能,可以用於推理加速的推測解碼。後訓練方面,DeepSeek V3引入了一種創新方法,將推理能力從長思維鏈模型(DeepSeek R1)中,蒸餾到標準模型上。這在顯著提高推理性能的同時,保持了DeepSeek V3的輸出風格和長度控制。

▌AI應用普及前奏

“DeepSeek的目標是實現AGI,而不僅僅是短期的商業化。”樑文鋒曾在採訪中如此強調。

DeepSeek的降價並非爲了搶用戶,而是基於成本下降和對普惠AI的追求。他相信,隨着經濟的發展,中國也應該成爲技術創新的貢獻者,而不僅僅是應用創新的跟隨者。

站在當下時點,AI應用滲透率仍然較低,產業仍在早期。中信證券指出,DeepSeek模型相比GPT4模型更小的參數量也意味着更低的推理成本,推理成本的降低,將是AI應用普及的前奏,正如4G提速降費給我國移動互聯網產業提供了助力。

其進一步表示,豆包pro、DeepSeek-v3等國產模型連續發佈。模型能力上,國產模型在文本和知識能力上接近GPT-4、Claude、Llama等海外前沿模型水平,多模態能力逐步完備,邏輯和代碼能力在非o1技術路線下達到可用水平。價格上,國產模型API百萬tokens輸出普遍定價10元以內,是GPT-4o的1/3甚至更低。

預計模型性價比持續提升下,國內AI應用依託豐富生態和成熟流量,有望加速在各領域落地。其中,Agent模式有望以更長的任務流程、更好的場景理解、更高的自主能力,成爲所有互聯網用戶的數字助手,在企業管理、教育、辦公、金融等領域展現應用價值。

值得一提的是,有消息稱Meta生成AI小組和基礎設施團隊已開設四個作戰室,學習DeepSeek工作原理。其中兩個動員起來的小組正在試圖瞭解High-Flyer如何降低訓練和運行DeepSeek的成本。第三個Meta研究小組正在試圖弄清楚High-Flyer可能使用哪些數據來訓練其模型。第四作戰室正在考慮基於DeepSeek模型屬性重構Meta模型的新技術——

這或許也意味着,站在巨人肩膀上的DeepSeek,成爲了有望託舉更多人的巨人。