☰

DeepSeek發佈最新技術論文

DeepSeek突傳大動作。

2月18日，DeepSeek在社交平臺X上發佈了一篇關於NSA的純技術論文報告。DeepSeek稱，NSA是一種與硬件高度適配並可原生訓練的稀疏注意力機制，實現超高速長上下文訓練與推理。通過針對現代硬件的優化設計，NSA加快了推理速度，同時降低了預訓練成本，而不會影響性能。

與此同時，人工智能初創公司月之暗面也有大動作。2月18日，其宣佈推出一款新模型Kimi Latest，它將對標Kimi智能助手當前使用的模型，隨智能助手產品更新而同步升級（模型名稱始終不變），用戶現已可在Kimi開放平臺體驗。

市場層面，2月18日，港股DeepSeek概念股延續強勢，截至收盤，出門問問大漲超16%，創夢天地大漲超12%，美圖公司大漲超10%，快手漲超9%。高盛最新研報指出，DeepSeek-R1及中國本土AI模型的突破性進展，正在重塑科技產業敘事邏輯。

DeepSeek發佈

2月18日，DeepSeek官方在海外社交平臺X上發佈了一篇純技術論文報告，論文主要內容是關於NSA（Natively Sparse Attention，原生稀疏注意力），官方介紹這是一種用於超快速長文本訓練與推理的、硬件對齊且可原生訓練的稀疏注意力機制，用於超快速的長上下文訓練和推理。

DeepSeek表示，通過針對現代硬件的優化設計，NSA加快了推理速度，同時降低了預訓練成本，而不會影響性能。在一般基準測試、長上下文任務和基於指令的推理上，它的表現與完全注意力模型相當甚至更好。

值得一提的是，在這篇名爲《原生稀疏注意力：硬件對齊且可原生訓練的稀疏注意力機制》（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention）的論文署名中，DeepSeek創始人兼CEO樑文鋒也作爲共創在列。

根據最新發布的論文，NSA的核心亮點可以概括爲以下兩點：

1、動態分層稀疏策略：NSA採用了一種動態分層的稀疏策略，結合了粗粒度的Token壓縮和細粒度的Token選擇。這種策略既提升了效率，也保留了模型對全局長上下文的感知能力和局部精確性。

2、兩大關鍵創新：算術強度平衡的算法設計與硬件優化，NSA通過精巧的算法設計，並針對現代硬件進行了實現優化，顯著提升了計算速度；可訓練的稀疏注意力，NSA支持端到端訓練，減少了預訓練計算成本，同時保持模型性能。

實驗結果顯示，NSA 在多個基準測試中表現出色，甚至超越了全注意力基線模型。

在8卡A100計算集羣上，NSA的前向傳播和反向傳播速度分別比全注意力快9倍和6倍，由於減少了內存訪問量，NSA在長序列解碼時相較於全注意力模型速度顯著提升。

在處理64k長度的序列時，NSA在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升，最高可達11.6 倍。

實驗表明，NSA不僅在通用任務和長上下文任務中表現出色，還在鏈式推理等複雜任務中展現了強大的潛力。

儘管NSA取得了顯著的成果，但DeepSeek研究團隊也指出了一些可能的改進方向。未來，研究團隊計劃進一步探索稀疏注意力的理論邊界，並將其應用於更多實際場景，如多模態理解和實時生成任務。

月之暗面大動作

與此同時，人工智能初創公司月之暗面也有大動作。2月18日，其宣佈推出一款新模型Kimi Latest，它將對標Kimi智能助手當前使用的模型，隨智能助手產品更新而同步升級（模型名稱始終不變），旨在爲開發者和企業用戶提供更強大、更穩定的AI生成能力。

據介紹，Kimi Latest模型將始終對標Kimi智能助手當前使用的最新模型，並隨產品更新同步升級。這一特性確保了開放平臺用戶既能體驗到最新模型帶來的卓越效果，包括尚未穩定的試驗性特性，又能保持原有模型的穩定性。Kimi Latest模型具備128k的上下文長度，並能根據上下文長度自動選擇8k、32k或128k模型作爲計費標準。此外，該模型支持圖片理解、自動上下文緩存等功能，緩存命中的Tokens費用僅爲1/M Tokens，暫不支持手動上下文緩存。

目前，Kimi Latest僅支持調用Kimi普通版模型，Kimi k1.5長思考模型暫不支持API調用。如有研究和測評需求，需要填寫Kimi k1.5申請表單提交測試申請。

Kimi是DeepSeek崛起之前，國內話題度最高的來自創業公司的AI產品。

據公開數據統計，截至目前，月之暗面共完成4輪融資，融資規模超過110億元。其中，在阿里參與超10億美元規模的A+輪融資中，有媒體報道稱有近2億美元以算力券形式折算。這意味着，月之暗面的現金規模接近100億元。

另據界面新聞，月之暗面近期決定大幅收縮產品投放預算，包括暫停多個安卓渠道的投放，以及第三方廣告平臺的合作。

在DeepSeek席捲全球AI產業鏈後，這是大模型“六小虎”之中第一家在投放策略上有明顯反應的公司。據瞭解，月之暗面內部對此次調整解釋稱，公司近期受到“外部因素和內部戰略調整影響”。

界面新聞援引知情人士的消息稱，DeepSeek的爆火對月之暗面內部而言是一番不小的刺激。團隊覆盤後認爲還是要堅持基礎模型SOTA（State-of-the-art，當前最佳）。接下來，團隊可能會重新訓練基礎模型，同時抓緊應用層的機會，內部選中的一個產品方向是DeepResearch，這是OpenAI在2月發佈的一款面向深度研究領域的智能體產品。

高盛最新發聲

高盛最新研報指出，DeepSeek-R1及中國本土AI模型的突破性進展，正在重塑科技產業敘事邏輯。

該機構測算，AI技術普及有望在未來十年內每年爲中國企業提升EPS(每股收益)約2.5%，並通過改善增長預期推動中國股市公允價值提升15%—20%，預計將吸引超2000億美元(約合人民幣1.44萬億元)的跨境資本流入。

2月18日，港股DeepSeek概念股延續強勢，截至收盤，出門問問大漲16.67%，創夢天地大漲12.35%，美圖公司大漲超10%，快手漲超9%。

消息方面，包括貝萊德、路博邁、施羅德等多家外資機構均認爲，隨着DeepSeek的技術突破，半導體行業將經歷較大的波動，但長期來看，AI計算能力的需求仍會持續增長，推動芯片和硬件市場的發展。

此外，機構也認爲，本輪技術突破有望帶動更大範圍的投資潮，看好AI大發展對新能源、消費電子、智能駕駛和醫療健康等領域的輻射效應。

中信證券在最新研報中指出，“儘管近期中國科網公司已有非常顯著的漲幅，拉長曆史週期看，我們仍處於AI時代的早期，以及中國科技資產重估的開端。”

中信證券表示，長期看好中國科技乃至更大範圍資產的重估和成長空間，尤其是在2018年中美博弈導致估值顯著承壓之後。未來，每一次大的技術突破和應用落地，都有機會帶來系統性的估值提升。

光大證券在研報中表示，目前AI應用正在加速擴散，相關企業的技術和產品不斷推陳出新，爲資本市場提供了豐富的投資機會。只要產業趨勢延續，即便短期的“擁擠”可能會帶來分歧與調整，但大概率也會有更多的資金去承接，進而打開“擁擠度”進一步向上的空間。

來源：券商中國

責編：萬健禕

校對：王蔚

" Type="normal"@@-->

證券時報各平臺所有原創內容，未經書面授權，任何單位及個人不得轉載。我社保留追究相關行爲主體法律責任的權利。

轉載與合作可聯繫證券時報小助理，微信ID：SecuritiesTimes" Type="normal"@@-->

END

" Type="normal"@@-->

DeepSeek發佈最新技術論文

相關資訊