DeepSeek發佈最新技術論文
DeepSeek突傳大動作。
2月18日,DeepSeek在社交平臺X上發佈了一篇關於NSA的純技術論文報告。DeepSeek稱,NSA是一種與硬件高度適配並可原生訓練的稀疏注意力機制,實現超高速長上下文訓練與推理。通過針對現代硬件的優化設計,NSA加快了推理速度,同時降低了預訓練成本,而不會影響性能。
與此同時,人工智能初創公司月之暗面也有大動作。2月18日,其宣佈推出一款新模型Kimi Latest,它將對標Kimi智能助手當前使用的模型,隨智能助手產品更新而同步升級(模型名稱始終不變),用戶現已可在Kimi開放平臺體驗。
市場層面,2月18日,港股DeepSeek概念股延續強勢,截至收盤,出門問問大漲超16%,創夢天地大漲超12%,美圖公司大漲超10%,快手漲超9%。高盛最新研報指出,DeepSeek-R1及中國本土AI模型的突破性進展,正在重塑科技產業敘事邏輯。
DeepSeek發佈
2月18日,DeepSeek官方在海外社交平臺X上發佈了一篇純技術論文報告,論文主要內容是關於NSA(Natively Sparse Attention,原生稀疏注意力),官方介紹這是一種用於超快速長文本訓練與推理的、硬件對齊且可原生訓練的稀疏注意力機制,用於超快速的長上下文訓練和推理。
DeepSeek表示,通過針對現代硬件的優化設計,NSA加快了推理速度,同時降低了預訓練成本,而不會影響性能。在一般基準測試、長上下文任務和基於指令的推理上,它的表現與完全注意力模型相當甚至更好。
值得一提的是,在這篇名爲《原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek創始人兼CEO樑文鋒也作爲共創在列。
根據最新發布的論文,NSA的核心亮點可以概括爲以下兩點:
1、動態分層稀疏策略:NSA採用了一種動態分層的稀疏策略,結合了粗粒度的Token壓縮和細粒度的Token選擇。這種策略既提升了效率,也保留了模型對全局長上下文的感知能力和局部精確性。
2、兩大關鍵創新:算術強度平衡的算法設計與硬件優化,NSA通過精巧的算法設計,並針對現代硬件進行了實現優化,顯著提升了計算速度;可訓練的稀疏注意力,NSA支持端到端訓練,減少了預訓練計算成本,同時保持模型性能。
實驗結果顯示,NSA 在多個基準測試中表現出色,甚至超越了全注意力基線模型。
在8卡A100計算集羣上,NSA的前向傳播和反向傳播速度分別比全注意力快9倍和6倍,由於減少了內存訪問量,NSA在長序列解碼時相較於全注意力模型速度顯著提升。
在處理64k長度的序列時,NSA在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升,最高可達11.6 倍。
實驗表明,NSA不僅在通用任務和長上下文任務中表現出色,還在鏈式推理等複雜任務中展現了強大的潛力。
儘管NSA取得了顯著的成果,但DeepSeek研究團隊也指出了一些可能的改進方向。未來,研究團隊計劃進一步探索稀疏注意力的理論邊界,並將其應用於更多實際場景,如多模態理解和實時生成任務。
月之暗面大動作
與此同時,人工智能初創公司月之暗面也有大動作。2月18日,其宣佈推出一款新模型Kimi Latest,它將對標Kimi智能助手當前使用的模型,隨智能助手產品更新而同步升級(模型名稱始終不變),旨在爲開發者和企業用戶提供更強大、更穩定的AI生成能力。
據介紹,Kimi Latest模型將始終對標Kimi智能助手當前使用的最新模型,並隨產品更新同步升級。這一特性確保了開放平臺用戶既能體驗到最新模型帶來的卓越效果,包括尚未穩定的試驗性特性,又能保持原有模型的穩定性。Kimi Latest模型具備128k的上下文長度,並能根據上下文長度自動選擇8k、32k或128k模型作爲計費標準。此外,該模型支持圖片理解、自動上下文緩存等功能,緩存命中的Tokens費用僅爲1/M Tokens,暫不支持手動上下文緩存。
目前,Kimi Latest僅支持調用Kimi普通版模型,Kimi k1.5長思考模型暫不支持API調用。如有研究和測評需求,需要填寫Kimi k1.5申請表單提交測試申請。
Kimi是DeepSeek崛起之前,國內話題度最高的來自創業公司的AI產品。
據公開數據統計,截至目前,月之暗面共完成4輪融資,融資規模超過110億元。其中,在阿里參與超10億美元規模的A+輪融資中,有媒體報道稱有近2億美元以算力券形式折算。這意味着,月之暗面的現金規模接近100億元。
另據界面新聞,月之暗面近期決定大幅收縮產品投放預算,包括暫停多個安卓渠道的投放,以及第三方廣告平臺的合作。
在DeepSeek席捲全球AI產業鏈後,這是大模型“六小虎”之中第一家在投放策略上有明顯反應的公司。據瞭解,月之暗面內部對此次調整解釋稱,公司近期受到“外部因素和內部戰略調整影響”。
界面新聞援引知情人士的消息稱,DeepSeek的爆火對月之暗面內部而言是一番不小的刺激。團隊覆盤後認爲還是要堅持基礎模型SOTA(State-of-the-art,當前最佳)。接下來,團隊可能會重新訓練基礎模型,同時抓緊應用層的機會,內部選中的一個產品方向是DeepResearch,這是OpenAI在2月發佈的一款面向深度研究領域的智能體產品。
高盛最新發聲
高盛最新研報指出,DeepSeek-R1及中國本土AI模型的突破性進展,正在重塑科技產業敘事邏輯。
該機構測算,AI技術普及有望在未來十年內每年爲中國企業提升EPS(每股收益)約2.5%,並通過改善增長預期推動中國股市公允價值提升15%—20%,預計將吸引超2000億美元(約合人民幣1.44萬億元)的跨境資本流入。
2月18日,港股DeepSeek概念股延續強勢,截至收盤,出門問問大漲16.67%,創夢天地大漲12.35%,美圖公司大漲超10%,快手漲超9%。
消息方面,包括貝萊德、路博邁、施羅德等多家外資機構均認爲,隨着DeepSeek的技術突破,半導體行業將經歷較大的波動,但長期來看,AI計算能力的需求仍會持續增長,推動芯片和硬件市場的發展。
此外,機構也認爲,本輪技術突破有望帶動更大範圍的投資潮,看好AI大發展對新能源、消費電子、智能駕駛和醫療健康等領域的輻射效應。
中信證券在最新研報中指出,“儘管近期中國科網公司已有非常顯著的漲幅,拉長曆史週期看,我們仍處於AI時代的早期,以及中國科技資產重估的開端。”
中信證券表示,長期看好中國科技乃至更大範圍資產的重估和成長空間,尤其是在2018年中美博弈導致估值顯著承壓之後。未來,每一次大的技術突破和應用落地,都有機會帶來系統性的估值提升。
光大證券在研報中表示,目前AI應用正在加速擴散,相關企業的技術和產品不斷推陳出新,爲資本市場提供了豐富的投資機會。只要產業趨勢延續,即便短期的“擁擠”可能會帶來分歧與調整,但大概率也會有更多的資金去承接,進而打開“擁擠度”進一步向上的空間。
來源:券商中國
責編:萬健禕
校對:王蔚
版權聲明
" Type="normal"@@-->
證券時報各平臺所有原創內容,未經書面授權,任何單位及個人不得轉載。我社保留追究相關行爲主體法律責任的權利。
轉載與合作可聯繫證券時報小助理,微信ID:SecuritiesTimes" Type="normal"@@-->
END
" Type="normal"@@-->