英偉達的GPU已經講不出“花兒”了

出品|虎嗅科技組

作者|齊健

編輯|王一鵬

頭圖|視覺中國

“我們需要更大的GPU。”

當地時間3月18日,黃仁勳在英偉達2024 GTC大會上,宣佈了英偉達新一代加速計算平臺NVIDIA Blackwell,以及基於Blackwell GPU架構的雙芯片GPU B200和超級芯片GB200。

Blackwell架構單GPU AI性能達到20 PFLOPS,性能比上一代提高了5倍,而成本和能耗下降25倍。黃仁勳以訓練1.8萬億參數的GPT模型爲例(可能GPT-4的參數量)。同樣以90天爲訓練週期,上一代Hopper架構的GPU至少要用8000個,功耗15MW,而使用Blackwell架構的GPU,只需要2000顆,功耗約4 MW。

Blackwell

作爲全球加速計算市場的“老大”,英偉達今天的一切成功都建立在GPU上。

不過,從黃仁勳在GTC大會上的主題演講來看,英偉達似乎並不希望外界只看到他們的GPU。在黃仁勳2個小時的主題演講中,雖然Blackwell平臺的發佈是絕對主角,但他也把超過一半的演講時間放在了GPU“周圍”的技術上,包括:芯片設計、生產技術,生成式AI模型訓練,數字孿生,以及具身智能等。

一直以來,英偉達都在強調自己是“人工智能時代領先的計算公司”,而不只是一家芯片或是硬件公司。在GTC上宣佈的軟件技術、AI訓練技術、機器人技術等,也無不透露着“源於GPU,高於GPU”的味道。

加速計算市場上並不乏性能與英偉達接近的GPU產品,然而英偉達真正的護城河其實來自GPU軟件開發工具。

在Blackwell之外,英偉達公佈了一系列與AI、GPU、機器人相關的創新軟件應用,包括:

AI模型和工作流微服務產品NVIDIA NIM(NVIDIA AI Microservices);企業級的AI軟件平臺NVIDIA AI Enterprise 5.0;用於機器人開發的仿真環境NVIDIA Isaac Sim;GPU加速、性能優化的輕量級應用NVIDIA Isaac Lab;用於計算編排服務的工具NVIDIA OSMO;用於藥物研發的微服務NVIDIA BioNeMo;用於基因組學分析的軟件套件NVIDIA Parabricks;用於視頻分析和智能視頻管理的軟件平臺NVIDIA Metropolis等。

其中,NVIDIA NIM(NVIDIA AI Microservices)最爲突出。

NIM是一系列集成AI模型和工作流的微服務,專爲企業和開發者提供在生物、化學、影像及醫療數據領域構建和部署AI應用的高效、靈活方式。NIM的關鍵優勢是其符合行業標準的API,便於開發者創建雲原生應用。

目前,NIM微服務以及開始在醫療影像領域推廣。通過利用NVIDIA的AI技術,NIM微服務可以幫助醫療專業人員更快速、更準確地分析和解釋醫療影像數據,從而提高診斷的質量和效率。此外,NIM微服務還可以用於藥物研發,通過生成式化學模型和蛋白質結構預測模型,加速新藥的發現和開發過程。

事實上,軟件應用生態除了在AI等開發端支撐英偉達的GPU業務,在未來也有可能爲英偉達走出一條新的增長曲線。

SaaS行業是公認的毛利更高、賺錢快,且軟件、應用研發資產輕,不會像硬件生產那樣受到供應鏈的制約,也沒有生產、庫存壓力。

雖然英偉達的GPU藉着AI的東風也能賺得盆滿鉢滿,但增長速度相比不如爆發增長的OpenAI。而且如果只做GPU和算力生意,未來的發展空間,也難免會受到製造業自身增長緩慢屬性的影響。

已經壟斷了GPU生意的英偉達,自然不希望像AMD、Intel、高通那樣,“躬耕”於芯片行業卷生卷死。對於英偉達來說,基於AI大模型、軟件等向上再邁一層,不僅能鞏固自己當下的行業地位,也能拓寬未來的賽道。

專爲AI而生的Blackwell可以處理萬億參數規模的大語言模型(LLM)。每塊GPU擁有2080億個晶體管,採用專門定製的雙倍光刻極限尺寸4納米TSMC工藝製造,通過10 TB/s的片間互聯,將GPU裸片連接成一塊統一的GPU。

與Blackwell平臺一同推出的還有采用雙芯片設計的新一代GPU B200,單GPU AI性能達到20 PFLOPS。B200配備192GB內存。以及基於B200的超級芯片GB200,通過900GB/s超低功耗的片間互聯,將兩個NVIDIA B200 Tensor Core GPU與NVIDIA Grace CPU相連。

雖然Blackwell的性能提升巨大,但今天的超大規模AI模型多數都需要多GPU並聯計算。由此,GPU的連接性能,才真正體現了GPU在AI大模型訓練和應用過程中的價值。

第五代NVIDIA NVLink提供1.8TB/s雙向吞吐量,可以使576塊GPU之間實現無縫高速通信,滿足更爲複雜的大語言模型訓練需求。

在雲端模型部署方面,英偉達還推出了NVIDIA Quantum-X800 InfiniBand和Spectrum-X800以太網網絡平臺,提供了高達800Gb/s的端到端吞吐量,大幅提高了AI和HPC分佈式計算的可用性。

此外,英偉達還推出了6G研究雲平臺,以推動AI在無線接入網絡(RAN)技術的應用。保證了端側設備到雲基礎設施之間的鏈接,從而推動自動駕駛汽車、智能空間和沉浸式教育體驗的發展。

英偉達全新網絡交換機- X800系列。

與Blackwell架構一同宣佈的,還有英偉達與主流服務器、雲計算廠商的合作。AWS、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉和XAI等預計都會在未來將加速計算服務器更新到Blackwell架構。

在GPU硬件方面,英偉達在全球GPU市場中持續保持領先。Blackwell的性能比2年前的Hopper架構提升了5倍,比8年前的Pascal架構提升了1000倍。

黃仁勳在演講中自豪地說:“摩爾定律是每10年提升100倍性能,過去8年裡,我們提升了1000倍,我們還少用了2年。”

英偉達GPU性能八年提升1000倍

Blackwell一出,業界一片歡騰,很多人直呼:新摩爾定律誕生了。

相對於英偉達的用戶,華爾街對英偉達的看法相對冷靜。

剛剛過去的3月前幾周,英偉達遭市場逼空,3月8日股價下跌5.55%。雖然華爾街對英偉達本屆GTC表現樂觀,市場普遍預測此次大會將幫助英偉達股票結束近期震盪走勢。但是黃仁勳的主題演講結束後,英偉達夜盤表現不佳,次日開盤股價亦未見起色。

這主要是因爲GTC上公佈重磅新品,對於市場來說基本都在預期之內。其實對於英偉達來說,不管是8年前的Pascal還是今天的Blackwell。1-2年一次的GPU架構的升級早已經是順理成章的技術迭代,時至2024年,推出Blackwell在英偉達來說是一個“漸進式創新”的必然結果。

另一方面,對於如今的市場來說,隨着GPU技術的迭代,算力快速增長很可能會大幅壓縮英偉達的增長空間。

方舟投資首席執行官、知名投資人“木頭姐”凱西·伍德(Cathie Wood)在3月7日致股東的一封信中對英偉達未來可能面臨的競爭壓力發出警告,並將其與思科在1997至2000年期間股價經歷的“拋物線”進行比較。

伍德認爲,如果AI公司、軟件公司在應用層面一直見不到收益的話,很可能會停止增加在GPU建設方面的投入。

只是循序漸進地提升GPU性能,顯然不能保證英偉達業務的長期增長。英偉達需要給客戶提供更多圍繞GPU構建業務能力的工具。英偉達大概也早就認識到了這一點。

在傳統的GPU圖形渲染方面,英偉達重點向客戶推廣工業數字孿生應用和工作流創建平臺Omniverse。本次GTC,也宣佈了最新的NVIDIA Omniverse Cloud API,用以幫助開發者將Omniverse技術集成到他們的設計和仿真工具中。

英偉達還宣佈了與西門子、達索系統、Ansys、楷登軟件、新思科技等主流工業軟件廠商的進一步合作。

在AI方面,本次GTC上英偉達公佈了一款人形機器人基礎模型NVIDIA Project GR00T。可以支持通過語言、視頻和人類演示來學習動作和技能,爲機器人技術的AI應用提供了新的可能。Project GR00T與前段時間Figure推出的使用OpenAI大腦控制的機器人有些異曲同工。Project GR00T是一個多模態的人形機器人通用基礎模型,可以使機器人通過觀察人類行爲來模仿動作,從而快速學習協調、靈活性等技能。

除此之外,英偉達一直着力打造的機器人開發和仿真環境Isaac平臺此次也升級加入了生成式AI基礎模型和仿真工具,以及針對機器人學習和操作的優化工具。