誰卡了英偉達的脖子?

英偉達最新季度財報公佈後,不僅AMD沉默英特爾流淚,做過長時間心理建設的分析師也沒想到真實情況如此超預期。

更可怕的是,英偉達同比暴漲854%的收入,很大程度上是因爲“只能賣這麼多”,而不是“賣出去了這麼多”。一大堆“初創公司拿H100抵押貸款”的小作文背後,反應的是H100 GPU供應緊張的事實。

如果缺貨繼續延續到今年年底,英偉達的業績恐怕會更加震撼。

H100的短缺不禁讓人想起幾年前,GPU因爲加密貨幣暴漲導致缺貨,英偉達被遊戲玩家罵得狗血淋頭。不過當年的顯卡缺貨很大程度上是因爲不合理的溢價,H100的缺貨卻是產能實在有限,加價也買不到。

換句話說,英偉達還是賺少了。

在財報發佈當天的電話會議上,“產能”理所當然地成爲了最高頻詞彙。對此,英偉達措辭嚴謹,不該背的鍋堅決不背:

“市場份額方面,不是僅靠我們就可以獲得的,這需要跨越許多不同的供應商。”

實際上,英偉達所說的“許多不同的供應商”,算來算去也就兩家:

SK海力士和臺積電。

HBM :韓國人的遊戲

如果只看面積佔比,一顆H100芯片,屬於英偉達的部分只有50%左右。

在芯片剖面圖中,H100裸片佔據核心位置,兩邊各有三個HBM堆棧,加起面積與H100裸片相當。

這六顆平平無奇的內存芯片,就是H100供應短缺的罪魁禍首之一。

HBM(High Bandwidth Memory)直譯過來叫高寬帶內存,在GPU中承擔一部分存儲器之職。

和傳統的DDR內存不同,HBM本質上是將多個DRAM內存在垂直方向堆疊,這樣既增加了內存容量,又能很好的控制內存的功耗和芯片面積,減少在封裝內部佔用的空間。

“堆疊式內存”原本瞄準的是對芯片面積和發熱非常敏感的智能手機市場,但問題是,由於生產成本太高,智能手機最終選擇了性價比更高的LPDDR路線,導致堆疊式內存空有技術儲備,卻找不到落地場景。

直到2015年,市場份額節節敗退的AMD希望藉助4K遊戲的普及,抄一波英偉達的後路。

在當年發佈的AMD Fiji系列GPU中,AMD採用了與SK海力士聯合研發的堆疊式內存,並將其命名爲HBM(High Bandwidth Memory)。

AMD的設想是,4K遊戲需要更大的數據吞吐效率,HBM內存高帶寬的優勢就能體現出來。當時AMD的Radeon R9 Fury X顯卡,也的確在紙面性能上壓了英偉達Kepler架構新品一頭。

但問題是,HBM帶來的帶寬提升,顯然難以抵消其本身的高成本,因此也未得到普及。

直到2016年,AlphaGo橫掃冠軍棋手李世石,深度學習橫空出世,讓HBM內存一下有了用武之地。

深度學習的核心在於通過海量數據訓練模型,確定函數中的參數,在決策中帶入實際數據得到最終的解。

理論上來說,數據量越大得到的函數參數越可靠,這就讓AI訓練對數據吞吐量及數據傳輸的延遲性有了一種近乎病態的追求,而這恰恰是HBM內存解決的問題。

2017年,AlphaGo再戰柯潔,芯片換成了Google自家研發的TPU。在芯片設計上,從第二代開始的每一代TPU,都採用了HBM的設計。英偉達針對數據中心和深度學習的新款GPU Tesla P100,搭載了第二代HBM內存(HBM2)。

隨着高性能計算市場的GPU芯片幾乎都配備了HBM內存,存儲巨頭們圍繞HBM的競爭也迅速展開。

目前,全球能夠量產HBM的僅有存儲器三大巨頭:SK海力士、三星電子、美光。

SK海力士是HBM發明者之一,是目前唯一量產HBM3E(第三代HBM)的廠商;三星電子以HBM2(第二代HBM)入局,是英偉達首款採用HBM的GPU的供應商;美光最落後,2018年才從HMC轉向HBM路線,2020年年中才開始量產HBM2。

其中,SK海力士獨佔HBM 50%市場份額,而其獨家供應給英偉達的HBM3E,更是牢牢卡住了H100的出貨量:

H100 PCIe和SXM版本均用了5個HBM堆棧,H100S SXM版本可達到6個,英偉達力推的H100 NVL版本更是達到了12個。按照研究機構的拆解,單顆16GB的HBM堆棧,成本就高達240美元。那麼H100 NVL單單內存芯片的成本,就將近3000美元。

成本還是小問題,考慮到與H100直接競爭的谷歌TPU v5和AMD MI300即將量產,後兩者同樣將採用HBM3E,陳能更加捉襟見肘。

面對激增的需求,據說SK海力士已定下產能翻番的小目標,着手擴建產線,三星和美光也對HBM3E摩拳擦掌,但在半導體產業,擴建產線從來不是一蹴而就的。

按照9-12個月的週期樂觀預計,HBM3E產能至少也得到明年第二季度才能得到補充。

另外,就算解決了HBM的產能,H100能供應多少,還得看臺積電的臉色。

CoWoS:臺積電的寶刀

分析師Robert Castellano不久前做了一個測算,H100採用了臺積電4N工藝(5nm)生產,一片4N工藝的12寸晶圓價格爲13400美元,理論上可以切割86顆H100芯片。

如果不考慮生產良率,那麼每生產一顆H100,臺積電就能獲得155美元的收入[6]。

但實際上,每顆H100給臺積電帶來的收入很可能超過1000美元,原因就在於H100採用了臺積電的CoWoS封裝技術,通過封裝帶來的收入高達723美元[6]。

每一顆H100從臺積電十八廠的N4/N5產線上下來,都會運往同在園區內的臺積電先進封測二廠,完成H100製造中最爲特別、也至關重要的一步——CoWoS。

要理解CoWoS封裝的重要性,依然要從H100的芯片設計講起。

在消費級GPU產品中,內存芯片一般都封裝在GPU核心的外圍,通過PCB板之間的電路傳遞信號。

比如下圖中同屬英偉達出品的RTX4090芯片,GPU核心和GDDR內存都是分開封裝再拼到一塊PCB板上,彼此獨立。

GPU和CPU都遵循着馮·諾依曼架構,其核心在於“存算分離”——即芯片處理數據時,需要從外部的內存中調取數據,計算完成後再傳輸到內存中,一來一回,都會造成計算的延遲。同時,數據傳輸的“數量”也會因此受限制。

可以將GPU和內存的關係比作上海的浦東和浦西,兩地間的物資(數據)運輸需要依賴南浦大橋,南浦大橋的運載量決定了物資運輸的效率,這個運載量就是內存帶寬,它決定了數據傳輸的速度,也間接影響着GPU的計算速度。

1980年到2000年,GPU和內存的“速度失配”以每年50%的速率增加。也就是說,就算修了龍耀路隧道和上中路隧道,也無法滿足浦東浦西兩地物資運輸的增長,這就導致高性能計算場景下,帶寬成爲了越來越明顯的瓶頸。

CPU/GPU性能與內存性能之間的差距正在拉大

2015年,AMD在應用HBM內存的同時,也針對數據傳輸採用了一種創新的解決方案:把浦東和浦西拼起來。

簡單來說,2015年的Fiji架構顯卡,將HBM內存和GPU核心“縫合”在了一起,把幾塊小芯片變成了一整塊大芯片。這樣,數據吞吐效率就成倍提高。

不過如上文所述,由於成本和技術問題,AMD的Fiji架構並沒有讓市場買賬。但深度學習的爆發以及AI訓練對數據吞吐效率不計成本的追求,讓“芯片縫合”有了用武之地。

另外,AMD的思路固然好,但也帶來了一個新問題——無論HBM有多少優勢,它都必須和“縫芯片”的先進封裝技術配合,兩者脣齒相依。

如果說HBM內存還能貨比三家,那麼“縫芯片”所用的先進封裝,看來看去就只有臺積電一家能做。

CoWoS是臺積電先進封裝事業的起點,英偉達則是第一個採用這一技術的芯片公司。

CoWoS由CoW和oS組合而來:CoW表示Chip on Wafer,指裸片在晶圓上被拼裝的過程,oS表示on Substrate,指在基板上被封裝的過程。

傳統封裝一般只有oS環節,一般在代工廠完成晶圓製造後,交給第三方封測廠解決,但先進封裝增加的CoW環節,就不是封測廠能解決的了的。

以一顆完整的H100芯片爲例,H100的裸片周圍分佈了多個HBM堆棧,通過CoW技術拼接在一起。但不只是拼接而已,還要同時實現裸片和堆棧間的通信。

臺積電的CoW區別於其他先進封裝的亮點在於,是將裸片和堆棧放在一個硅中介層(本質是一塊晶圓)上,在中介層中做互聯通道,實現裸片和堆棧的通信。

類似的還有英特爾的EMIB,區別在於通過硅橋實現互聯。但帶寬遠不及硅中介層,考慮到帶寬與數據傳輸速率息息相關,CoWoS便成了H100的唯一選擇。

這便是卡住H100產能的另一隻手。

雖然CoWoS效果逆天,但4000-6000美元/片的天價還是攔住了不少人,其中就包括富可敵國的蘋果。因此,臺積電預備的產能相當有限。

然而,AI浪潮突然爆發,供需平衡瞬間被打破。

早在6月就有傳言稱,今年英偉達對CoWoS的需求已經達到4.5萬片晶圓,而臺積電年初的預估是3萬片,再加上其他客戶的需求,產能缺口超過了20%。

爲了彌補缺口,臺積電的陣仗不可謂不大。

6月,臺積電正式啓用同在南科的先進封測六廠,光無塵室就比其餘封測廠的加起來還大,並承諾逐季增加CoWoS產能,爲此將部分oS外包給第三方封測廠。

但正如HBM擴產不易,臺積電擴產也需要時間。目前,部分封裝設備、零組件交期在3-6個月不等,到年底前,新產能能開出多少仍是未知。

不存在的Plan B

面對H100的結構性緊缺,英偉達也不是完全沒有Plan B。

在財報發佈後的電話會議上,英偉達就透露,CoWoS產能已經有其他供應商參與認證。雖然沒說具體是誰,但考慮到先進封裝的技術門檻,除了臺積電,也就只有英特爾先天不足的EMIB、三星開發了很久一直等不來客戶的I-Cube能勉強救火。

但核心技術更換如同陣前換將,隨着AMD MI300即將量產出貨,AI芯片競爭白熱化,是否能和英特爾和三星的技術磨合到位,恐怕黃仁勳自己心理也是惴惴。

比黃仁勳更着急的可能是買不到H100的雲服務廠商與AI初創公司。畢竟遊戲玩家搶不到顯卡,也就是遊戲幀數少了20幀;大公司搶不到H100,很可能就丟掉了幾十億的收入和上百億的估值。

需要H100的公司主要有三類:微軟、亞馬遜這類雲服務商;Anthropic、OpenAI這些初創公司;以及特斯拉這類大型科技公司,特斯拉的新版本FSD方案就用了10000塊H100組成的GPU集羣來訓練。

這還沒算上Citadel這類金融公司,以及買不到特供版H800的中國公司。

根據GPU Utils的測算[7],保守估計,目前H100的供給缺口達到43萬張。

雖然H100存在理論上的替代方案,但在實際情況下都缺乏可行性。

比如H100的前代產品A100,價格只有H100的1/3左右。但問題是,H100的性能比A100強了太多,導致H100單位成本的算力比A100高。考慮到科技公司都是成百上千張起購,買A100反而更虧。

AMD是另一個替代方案,而且紙面性能和H100相差無幾。但由於英偉達CUDA生態的壁壘,採用AMD的GPU很可能讓開發週期變得更長,而採用H100的競爭對手很可能就因爲這點時間差,和自己拉開了差距,甚至上億美元的投資血本無歸。

種種原因導致,一顆整體物料成本3000美元的芯片,英偉達直接加個零賣,大家居然都搶着買。這可能是黃仁勳自己也沒想到的。

而在HBM與CoWoS產能改善之前,買到H100的方法可能就只剩下了一種:

等那些靠吹牛逼融到錢買了一堆H100的初創公司破產,然後接盤他們的二手GPU。

參考資料

[1] AI Capacity Constraints - CoWoS and HBM Supply Chain,SemiAnalysis

[2] 原廠積極擴產,預估2024年HBM位元供給年成長率105%,TrendForce

[3] HBM技術會給數據中心帶來怎樣的變化?半導體產業縱橫

[4] 先進封裝第二部分:英特爾、臺積電、三星、AMD、日月光、索尼、美光、SKHynix、YMTC、特斯拉和英偉達的選項/使用回顧,Semianalysis

[5] OpenAI聯合創始人兼職科學家Andrej Karpathy推文

[6] Taiwan Semiconductor: Significantly Undervalued As Chip And Package Supplier To Nvidia,SeekingAlpha

[7] Nvidia H100 GPUs: Supply and Demand,GPU Utils

編輯:李墨天

視覺設計:疏睿

責任編輯:李墨天