100%英偉達的錯:黃仁勳確認Blackwell缺陷修復,明年初出貨

機器之心報道

編輯:澤南、杜偉

「我們的 Blackwell 芯片存在設計缺陷,雖然可以正常使用,但該設計缺陷導致良率低下,」黃仁勳表示。「這 100% 是英偉達的錯。」

自 3 月份發佈以來,全球科技公司都在瘋狂求購的 Blackwell AI 芯片,似乎終於要到了出貨的時候。

本週三,在與高盛(Goldman Sachs)進行的會議中,英偉達表示 Blackwell GPU 中影響良率的設計缺陷已宣告修復,B100/B200 處理器的改進版即將投入量產。

據路透社等外媒報道,英偉達 CEO 黃仁勳本週承認,該缺陷完全由英偉達造成,並表示該現在已在臺積電的及時幫助下修復了缺陷。

今年 8 月,當有關英偉達最新一代芯片 Blackwell 設計缺陷的第一批報道出現時,一些媒體稱臺積電應承擔責任 —— 並暗示這可能導致英偉達與其代工合作伙伴之間的關係緊張。

黃仁勳表示,事實並非如此。他還駁斥了有關兩家公司關係緊張的報道,並稱其爲「假新聞」。爲了讓 Blackwell 計算設備正常工作,英偉達設計了七種不同類型的芯片,並同時投入生產。

英偉達的 Blackwell 芯片採用全新一代架構,臺積電 4NP 工藝打造,擁有 2080 億個晶體管,在執行大模型推理等任務時效率較前代提升了 30 倍,因而備受科技公司期待。

此種面積的芯片,顯然不能再通過傳統方式來打造。Blackwell 的 B100 和 B200 GPU 兩個型號使用臺積電的 CoWoS-L 封裝技術連接兩個芯片,該技術依賴於配備局部硅互連(LSI)橋接器的 RDL 中介層(以實現約 10 TB/s 的數據傳輸速率)。

英偉達表示,雙芯片的 GPU 沒有內存局部性問題或緩存問題,CUDA 將其視爲單塊 GPU,可見這些芯片的橋接器至關重要。然而,GPU 芯片、LSI 橋接器、RDL 中介層和主板基板之間的熱膨脹特性可能不匹配,導致系統彎曲和故障。

圖源:Nvidia

因此,英偉達在 8 月承認了其 Blackwell GPU 的良品率低,需要修改 GPU 硅片的頂部金屬層和凸片,以提高生產良率。當時,英偉達在一份聲明中表示,「公司已經對 Blackwell GPU 的掩膜實施了修復。」

不過,英偉達也重申,公司在第二季度與客戶一起對 Blackwell GPU 進行了抽樣檢查,並承認必須生產「低良率 Blackwell 材料」才能滿足對 Blackwell 處理器的需求。

同時,黃仁勳在 2025 財年第二季度財報電話會議上表示,公司針對 Blackwell B100 和 B200 GPU 的設計進行了所有必要的變更,從而有望在第四季度實現量產。

英偉達 Blackwell GPU 不同型號的參數規格。

其實在半導體行業中,影響良率的 bug 以及重大功能問題並不是什麼新鮮事。通常,公司通過修改金屬層(或兩層)等新步進(stepping)來修復這些問題。

據此前報道,英特爾的 Sapphire Rapids 有 500 個 bug。因此,英特爾發佈了大約十幾個步進來修復所有 bug(其中五個是基礎重置)。每個新步進大約需要三個月才能完成(包括識別問題、修復問題和生產新版本芯片)。

圖源:Intel

從這一點來看,英偉達和臺積電修復 Blackwell GPU 的速度的確令人印象深刻。

目前,已修復的用於 AI 和超級計算機的 Blackwell GPU 預計將於最近幾天投入量產,並在 2025 年初開始發貨(仍在英偉達 2025 財年內)。

此外,根據英偉達在今年初披露的消息,AWS、谷歌、Meta 和微軟是其主要客戶(合計收入佔比高達 40%),爲滿足他們對其新一代 AI 算力的需求,該公司必須在本年度出貨一些最初低良率的 Blackwell GPU。不過,2024 年究竟會有多少 Blackwell GPU 被「送」往數據中心,我們不得而知。

週三美股收盤,剛剛創下歷史新高的英偉達股票收跌 2.81 %,回落到 140 美元以下。

參考內容:

https://www.tomshardware.com/pc-components/gpus/nvidia-adresses-significant-blackwell-yield-issues-production-ramp-in-q4

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-jensen-huang-admits-ai-chip-design-flaw-was-100-percent-nvidias-fault-tsmc-not-to-blame-now-fixed-blackwell-chips-are-in-production