AI PC 之爭:Microsoft 的 NPU 執念與 Nvidia 的 AI PC 野心

在 AI 基礎設施領域,特別是在數據中心方面,Nvidia 無疑是無可爭議的冠軍。然而在新興的 AI PC 領域,情況並非如此明朗。

2024 年初,很明顯 Windows 的未來將融入 AI 增強功能和體驗。主要特性包括實時字幕和翻譯、MS Paint 中的圖像生成,以及後續推出的略顯爭議的 Recall 功能 (通過定期截屏來追蹤過往活動)。

目前,這些新功能僅限於所謂的 Copilot+ PC,而要獲得這一認證,計算機必須滿足 Microsoft 的最低性能要求。

根據 Microsoft 的文檔,Copilot+ PC 需要一個capable 40 TOPS 以上 (每秒可進行超過 40 萬億次 INT8 AI 運算) 的神經處理單元 (NPU),同時配備至少 16GB 內存和 256GB 存儲。在功能推出之初,只有 Qualcomm 的處理器能夠滿足 Redmond 的 NPU 要求,因此只有搭載該芯片的 PC 才能作爲 Copilot+ PC 運行上述 AI 增強功能。

此後,除了 Qualcomm 符合要求的 Arm 兼容 X 芯片外,Intel 的 Lunar Lake 和 AMD 的 Strix Point 及 Halo 處理器系列也獲得了 Copilot+ PC 認證。

然而,即使是本月在 CES 2025 上發佈的售價 2,000 美元、具有超過 3.3 petaFLOPS AI 算力 (FP4) 的 Nvidia RTX 5090,對 Redmond 來說仍然不夠格。不管你的 GPU 能產生多少 FLOPS 或 TOPS,目前在 Microsoft 眼中,只有 NPU 纔算數。

Nvidia 在 AI PC 領域並非無所作爲

雖然 AI PC 的營銷炒作多圍繞 Microsoft 的 Copilot+ 規範展開,這也可以理解。目前幾乎所有 PC 都運行 Windows。Microsoft 在 PC 軟件生態系統的主導地位使其對 NPU 的執着難以忽視,但這並不意味着 Nvidia 一直在數據中心、工作站圖形和獨立遊戲 GPU 領域安於現狀。

事實上,據 Nvidia Windows AI 產品營銷負責人 Jesse Clayton 告訴 The Register,Nvidia 多年來一直致力於將 AI 功能引入 PC。

"我們在 2018 年就開始了 PC 上的 AI 運動,當時我們推出了首款帶有專用 AI 硬件——tensor 核心的 GeForce GPU 和 Nvidia GPU,"Clayton 說。"隨後,我們宣佈了首個廣泛部署的 PC AI——DLSS,它在遊戲中使用 AI 生成像素和幀來提高幀率。"

自那以後,GPU 巨頭推出了 RTX AI Toolkit (用於優化和部署 Windows PC 上的生成式 AI 模型的工具和軟件套件),將 Nvidia Inference Microservices (NIMs) 引入 PC,並推出了多個藍圖,用於最先進的圖像生成和將 PDF 轉換爲播客等功能。

"我們的策略是在能夠提供有趣和差異化體驗的地方,無論是通過增強遊戲玩家的遊戲體驗,還是通過爲創作者節省時間並減少重複性工作,"Clayton 解釋道。

雖然一些體驗直接面向終端用戶(如 ChatRTX 和 RTX Voice),但 Nvidia 最近推出的許多軟件都針對開發者社區。

競爭還是機遇?

無論如何評價 Copilot+ 的實際價值,Microsoft 已成功促使芯片設計商提供滿足其要求的 NPU,同時爲機器學習性能設立了新的最低標準。

考慮到 Windows 的市場份額以及 Microsoft 持續將 AI 融入其軟件各個角落的努力,NPU 遲早會滲透到最基礎的預算配置中。

此外,Microsoft 的 DirectML 和 ONNX Runtime 等框架的採用簡化了應用程序開發,使代碼能夠在各種硬件上運行,只需最少的重新調整。

這對 Nvidia 構成了潛在挑戰。這家硅谷巨頭可能主導着獨立顯卡市場,但其 GPU 僅佔所售 PC 的約 18%,絕大多數系統使用 Intel、AMD 或其他廠商的集成顯卡。

有觀點認爲,在不久的將來,NPU 將成爲開發 AI 應用的更大目標。雖然 Nvidia 不會被排除在對話之外,因爲其加速器也支持許多流行的軟件框架,但其部分競爭優勢在於說服開發者使用其庫和微服務,這些服務承諾更易集成、性能更高、效率更好。

最終,Clayton 表示,開發者將需要決定是要使用 NIMs 等工具快速將應用推向市場,還是要支持最大可能的安裝基數。

但是,雖然 Nvidia 最終可能面臨來自 NPU 的競爭——AI PC 仍是一個相當小衆的市場——這並不一定都是壞消息。即使模型最終不在 Nvidia 的 PC 硬件上運行,它們很可能是在其 GPU 上訓練的。

即便如此,Clayton 認爲 NPU 並不適合所有工作負載。40 TOPS 是相當可觀的算力,但如前所述,與高端顯卡的性能相比仍相形見絀。

"NPU 適合運行輕量級 AI 工作負載,它們的能效很高,"他說。"GPU 則適合運行更具挑戰性的 AI 用例,這也是我們一直推進和關注的方向。"

"對於簡單無法在 PC 上運行的任務,你可以在雲端的 GPU 上運行,那裡有實際上無限的性能,"Clayton 補充道。

GPU 可能最終也會獲得 Copilot+ 支持

已經有跡象表明,Microsoft 可能會擴展部分 Copilot+ 功能到 GPU,以支持更具計算挑戰性的工作負載。

Microsoft 沒有迴應我們關於其利用 GPU 計劃的問題。然而,在去年 6 月的一份聲明中,Nvidia 表示正與 Microsoft 合作,通過 Windows Copilot Runtime 爲小型語言模型 (SLMs) 添加 GPU 加速。

這項技術原計劃在 2024 年底推出,但 Microsoft 自己的文檔(最後更新於 12 月 5 日)並未提及 GPU,並特別指出其尚未推出的 Phi Silica 項目需要 NPU 來運行 SLM。

Clayton 拒絕就這項合作提供任何更新,稱"最終由 Microsoft 決定在哪裡運行哪些工作負載。"

Microsoft 是否以及何時選擇接納 GPU 用於本地 AI,可能最終取決於硬件的可用性。截至目前,配備獨立顯卡的 NPU Copilot+ PC 數量相當有限。

在臺式機方面,情況更爲棘手。雖然確實存在帶有 NPU 的臺式機芯片,但據我們所知,沒有一款滿足 Microsoft 40 TOPS 的性能要求。我們預計不久後會有更強大的 NPU 進入臺式機芯片。只需 Intel 或 AMD 找到方法將其移動芯片中的 NPU 壓縮到臺式機形態即可。