美國對DeepSeek開展國家安全調查!阿里突放大招,國產大模型又有重磅!

大年初一,阿里發出大模型新年第一彈。

1月29日凌晨1點半,阿里雲通義千問旗艦版模型Qwen2.5-Max正式升級發佈。據其介紹,Qwen2.5-Max模型是阿里雲通義團隊對MoE模型的最新探索成果,預訓練數據超過20萬億tokens,展現出極強勁的綜合性能,在多項公開主流模型評測基準上錄得高分,全面超越了目前全球領先的開源MoE模型以及最大的開源稠密模型。

與Qwen2.5-Max進行對比的模型,就包括了最近火爆海內外的DeepSeek旗下的V3模型。受新模型的影響,阿里巴巴美股拉昇,一度漲超7%,收盤錄得6.71%的漲幅,報96.03美元/股。

最近幾天,DeepSeek衝擊了美股的投資邏輯,導致英偉達等巨頭股價大幅震盪。

據央視新聞消息,當地時間1月28日,美國多名官員迴應DeepSeek對美國的影響,表示DeepSeek是“偷竊”,正對其影響開展國家安全調查。

就在前一天,美國總統特朗普還稱DeepSeek是很積極的技術成果。

無論是在硅谷、華爾街及白宮掀起軒然大波的DeepSeek,還是阿里通義千問新發布的大模型,國產大模型最近的密集創新成果表明,中國人工智能的進步與追趕,已經極大程度改變了全球AI的行業格局。

阿里新模型性能全球領先

阿里通義千問團隊表示,Qwen2.5-Max採用超大規模MoE(混合專家)架構,基於超過20萬億token的預訓練數據及精心設計的後訓練方案進行訓練。

據介紹,Qwen2.5-Max在知識、編程、全面評估綜合能力的以及人類偏好對齊等主流權威基準測試上,展現出全球領先的模型性能。指令模型是所有人可直接對話體驗到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

同時,基座模型反映模型裸性能,由於無法訪問GPT-4o和Claude-3.5-Sonnet等閉源模型的基座模型,通義團隊將Qwen2.5-Max與目前領先的開源MoE模型DeepSeek V3、最大的開源稠密模型Llama-3.1-405B,以及同樣位列開源稠密模型前列的Qwen2.5-72B進行了對比。結果顯示,在所有11項基準測試中,Qwen2.5-Max全部超越了對比模型。

記者還注意到,除了發佈Qwen2.5-Max以外,1月28日,阿里還開源了全新的視覺理解模型Qwen2.5-VL,推出了3B、7B、72B三個尺寸版本。其中,旗艦版Qwen2.5-VL-72B在13項權威評測中奪得視覺理解冠軍,全面超越GPT-4o與Claude3.5。

阿里巴巴股價走勢

受新模型的影響,阿里巴巴美股拉昇,一度漲超7%,收盤錄得6.71%的漲幅,報96.03美元/股。Qwen2.5-Max的發佈引發了資本市場關於重估中國AI資產的討論。如果將阿里巴巴美股上市後的股價走勢時間軸拉長,其股價在2020年摸到311.046美元的高位後,便進入了下行的通道。業內人士分析,阿里雲不僅發佈了與全球頂尖模型比肩甚至更優的模型,而且具備完整的雲生態,或能形成類似去年北美雲計算服務商的投資邏輯。

DeepSeek以外,大廠大模型也值得關注

最近幾天,大家的注意力都在DeepSeek上,但有國內頭部大模型廠商的核心技術骨幹告訴證券時報記者,包括阿里通義千問、字節豆包、騰訊混元在內的互聯網大廠大模型能力其實並不差,只是DeepSeek作爲創業公司,和互聯網大廠在發展戰略上有所不同。DeepSeek作爲純技術驅動的公司,代碼和訓練方法完全開源,而互聯網大廠往往出於商業化等方面的考量不會完全開源。

“DeepSeek出圈的原因主要還是跟金融市場相關。從基座能力上看,其實沒有那麼強,對我們的衝擊也沒有那麼大。”該技術骨幹告訴記者,美國股市上漲的邏輯主要是AI和英偉達芯片,但DeepSeek讓人們發現可能不需要這麼多英偉達的卡,就能做出來性能差不多的模型。“而且還開源了,所以DeepSeek才這麼受關注。”該技術骨幹表示。

與此同時,DeepSeek主要是在文本生成能力和理解能力方面比較強,尤其擅長中文語境下的長文本和複雜語境,DeepSeek V3和R1暫無多模態生成能力。有行業從業者向記者表示,以豆包等爲代表的大廠模型都屬於多模態大模型,在大語言模型基礎上融合了圖片、音頻、視頻等多種模態,對算力底座要求更高,不僅要支持大規模訓練任務,還要確保端側應用的實時性和高效性。

因此,DeepSeek除了通過創新架構與優化算法降低訓練成本外,還能更加聚焦於大語言模型領域。一名國內大模型高管在分析DeepSeek的成功時就指出,有相對充裕的卡(算力資源),沒有融資壓力,前面幾年只做模型不做產品,這些都讓DeepSeek更加純粹和聚焦,能夠在工程技術和算法上有所突破。

前述國內頭部大模型廠商的核心技術骨幹還透露,1月22日字節發佈的豆包大模型1.5Pro,在多個測評基準上領先於許多頭部的模型,“我們的壓力不來自於DeepSeek,而是豆包,只是豆包1.5Pro沒有出圈,大家沒注意到。”該技術骨幹說。

DeepSeek面臨“蒸餾”爭議

記者注意到,字節研究團隊還表示,豆包1.5Pro通過高效標註團隊與模型自提升相結合的方式持續優化數據質量,嚴格遵循內部標準,不使用任何其他模型的數據,確保數據來源的獨立性和可靠性,也即沒有通過“蒸餾”其他模型來走捷徑。

所謂“蒸餾”,指的是一種開發者用來優化小型模型的方法,是一種在深度學習和機器學習領域廣泛應用的技術,簡單理解就是用預先訓練好的複雜模型輸出的結果,作爲監督信號再去訓練另外一個簡單的模型。這樣可以大幅減少計算資源消耗,讓小模型在特定任務中以低成本取得類似效果。

DeepSeek的技術文檔表示,R1模型使用了數據蒸餾技術(Distillation)生成的高質量數據提升了訓練效率。週二,白宮人工智能和加密貨幣事務負責人大衛·薩克斯在接受該媒體採訪時宣稱,DeepSeek“有可能”竊取了美國的知識產權才得以崛起。他還表示,未來幾個月美國領先的人工智能公司將採取措施,試圖防止“蒸餾”。據金融時報報道,OpenAI稱它發現DeepSeek使用了OpenAI專有模型來訓練自己的開源模型的證據,但拒絕進一步透露其證據的細節。

不過多名業內人士表示,“蒸餾”雖然存在一定爭議,但其實是大模型訓練中一種常用的方法。由於訓練複雜模型需要投入大量資源,並僱用專業人員教導模型如何生成符合人類表達方式的回答,耗錢耗時間,而“蒸餾”則可以避免這個問題。因此,無論是在中國還是美國,初創公司和學術機構使用ChatGPT等具有人類反饋優化的商業大語言模型輸出數據來訓練自己的模型,被視爲一種普遍的、“默而不宣”的現象。

由中國科學院深圳先進技術研究院、北大等機構聯合發表的論文《大語言模型的蒸餾量化》中,研究者就提到除了Claude、豆包和Gemini之外,當前知名的開閉源大語言模型均表現出了較高的“蒸餾”水平。研究人員普遍認爲,“蒸餾”能夠使模型訓練的效率更好、成本更低,但會使模型的獨特性下降,且過度“蒸餾”也會導致模型性能下降。

責編:葉舒筠

校對:王朝全

版權聲明

" Type="normal"@@-->

證券時報各平臺所有原創內容,未經書面授權,任何單位及個人不得轉載。我社保留追究相關行爲主體法律責任的權利。

轉載與合作可聯繫證券時報小助理,微信ID:SecuritiesTimes" Type="normal"@@-->

END

" Type="normal"@@-->