繼良品率低後,英偉達Blackwell又過熱,說好的明年初發貨呢?
機器之心報道
編輯:佳琪
今年的的 GTC 大會,英偉達將 AI 芯片的標杆推向了難以想象的高度。
爲了幫助世界構建更大、更智能的 AI,英偉達首先拿出了世界上最先進的 GPU—— Blackwell 系列。
Blackwell 擁有 2080 億個晶體管,在同一顆芯片上集成了兩個 GPU。其兩塊小芯片之間的互聯速度高達 10TBps,徹底解決了內存瓶頸和緩存問題。
與前代產品 H100 相比,Blackwell 的性能提升同樣令人矚目,達到了 Hopper 的 30 倍。
以訓練一個 1.8 萬億參數的 GPT 模型爲例,如果使用 Hopper,需要 8000 個 GPU,消耗 15 兆瓦電力,訓練 3 個月;而換成 Blackwell,僅需 2000 個 GPU,就能在同樣的時間內完成,能耗只需 4 兆瓦,實現了性能和效率的雙重突破。
Blackwell 的量產問世,無疑將爲 AI 模型訓練和人形機器人的發展注入強勁動力,對整個 AI 應用生態也將產生深遠影響。
自 3 月份發佈,6 月份宣佈投產以來,Blackwell 最初定於 2024 年第二季度發貨,全球科技公司都在瘋狂求購。
但在原定的發貨時間,傳出了 Blackwell 因爲良品率低,將推遲發貨的消息。
當時,黃仁勳在 2025 財年第二季度財報電話會議上表示,設計上的問題都已修復,有望在第四季度實現量產。
現在,英偉達的客戶又在擔心一個新問題,當芯片連接到 Nvidia 自己的服務器機架時,會過熱。
據 The Information 報道,英偉達 Blackwell GPU 在 72 核的服務器上暴露了過熱隱患。這些服務器每個機架的功耗預計高達 120 千瓦,過熱問題不僅限制了 GPU 的性能,還可能損壞組件。爲此,英偉達不得不多次重新評估服務器機架的設計方案。
這引發了谷歌、Meta 和微軟等大客戶對能否按時在其數據中心部署 Blackwell 的擔憂。
爲此,英偉達已要求供應商對機架進行多項設計變更,進一步推遲了預期發貨日期。該公司發言人將「工程迭代」描述爲「正常且在意料之中」。
此前,由於 GPU 良率不高的問題,Blackwell 的量產計劃就推遲了一次。
今年 8 月,有媒體稱 Blackwell 存在設計缺陷。由於 Blackwell 是英偉達首個採用 MCM(多芯片封裝)設計的 GPU,在同一個芯片上集成了兩個 GPU。
這種「二合一」的創新,顯然不能再通過傳統方式來打造。Blackwell 的 B100 和 B200 GPU 兩個型號使用臺積電的 CoWoS-L 封裝技術連接兩個芯片,該技術依賴於配備局部硅互連(LSI)橋接器的 RDL 中介層,以實現約 10 TB/s 的數據傳輸速。
然而,由於 GPU 芯片、LSI 橋、RDL 中介層和主板基板之間的熱膨脹特性不匹配,導致封裝結構出現彎曲,從而引發系統故障。
對此,黃仁勳表示:「我們的 Blackwell 芯片存在設計缺陷,雖然可以正常使用,但該設計缺陷導致良率低下」。
更多詳情可參見:《100% 英偉達的錯:黃仁勳確認 Blackwell 缺陷修復,明年初出貨》
最終修訂版的 Blackwell GPU 直至 10 月底纔開始量產,這意味着英偉達最快也要等到明年 1 月底才能向客戶交付這些處理器。
而 Blackwell 正在面臨前所未有的需求。近期,黃仁勳在摩根士丹利舉辦的投資者會議上透露,Blackwell 已經全部售罄。摩根士丹利分析師 Joe Moore 指出,英偉達高管稱,Blackwell GPU 產品的訂單積壓已達 12 個月。
AWS、CoreWeave、谷歌、Meta、微軟和甲骨文等科技巨頭,已經採購了英偉達及其製造合作伙伴臺積電在未來四個季度內能生產的所有 Blackwell GPU。
這種旺盛的需求表明,儘管 AMD、英特爾以及各大雲服務商正努力分得一杯羹,英偉達在 AI GPU 的領導地位還將進一步鞏固並擴大。
作爲人類歷史上估值最高的股票,英偉達將於本週三公佈收益。與 8 月份的情況相似,在類似的時間節點,又傳出了有關下一代 Blackwell 芯片出問題的消息。
在英偉達承認 Blackwell 存在設計缺陷導致良品率低後,當時剛創下歷史新高的英偉達股票收跌 2.81 %,又回落到了 140 美元以下。
這一次,英偉達的股價又會發生怎樣的變化呢?
https://www.theinformation.com/articles/nvidia-customers-worry-about-snag-with-new-ai-chip-servers
https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers