英偉達新一代GPU大翻車
AI巨頭英偉達昨日突發利空。據The Information報道,英偉達新一代 Blackwell 處理器在高容量服務器機架中存在嚴重的過熱問題。這些問題導致設計調整與項目延期,使谷歌、 Meta 和微軟等主要客戶對能否按計劃部署 Blackwell 服務器感到擔憂。
知情人士透露,Blackwell GPU 專爲 AI 和高性能計算(HPC)設計,但在配置 72 個處理器的服務器中出現過熱問題,此類服務器每個機架功耗最高可達 120 千瓦。過熱問題迫使英偉達多次修改機架設計,不僅限制了 GPU 性能,還可能損壞硬件。客戶因此擔心,這些技術問題會延遲數據中心的處理器部署進程。
爲應對這一難題,英偉達要求供應商調整機架設計,並與合作伙伴一起優化散熱系統。儘管這種工程改進是大規模技術發佈中的常規步驟,但也進一步推遲了產品交付時間。英偉達發言人針對此事對路透社迴應稱,公司正與雲服務提供商密切合作,設計調整屬於正常研發流程的一部分。英偉達希望通過這種合作,確保最終產品在性能和可靠性方面達到預期,同時加緊解決技術瓶頸。今年 3 月,英偉達展示了 Blackwell 芯片,當時曾表示將在第二季度發貨。但隨後出現延遲,可能會影響 Meta Platforms、Alphabet 旗下谷歌和微軟等客戶。英偉達的 Blackwell 芯片採用兩塊與該公司之前產品大小相同的方形硅片,並將它們組合成一個組件,使其在執行聊天機器人響應等任務時的速度提高了 30 倍。英偉達的一位發言人拒絕向The Information透露該公司是否已經完成 Blackwell 機架設計。此前,由於該處理器的設計缺陷會影響良率, 英偉達不得不推遲 Blackwell 的生產 。英偉達的 Blackwell B100 和 B200 GPU 使用臺積電的 CoWoS-L 封裝技術連接兩個芯片。該設計包括一個帶有局部硅片互連 (LSI) 橋接器的 RDL 中介層,支持高達 10 TB/s 的數據傳輸速度。這些 LSI 橋接器的精確定位對於該技術按預期運行至關重要。然而,GPU 芯片、LSI 橋接器、RDL 中介層和主板基板的熱膨脹特性不匹配導致了翹曲和系統故障。爲了解決這個問題,據報道 英偉達修改了 GPU 硅的頂部金屬層和凸點結構,以提高生產可靠性。雖然英偉達從未透露有關這些變化的具體細節,但它指出作爲修復的一部分,新的掩模是必要的。目前還不清楚新的過熱問題是否會影響 Blackwell 的新發布日期(定於明年年初)。英偉達此前曾表示,希望銷售約 6 萬至 7 萬臺完整服務器,因此任何進一步的延遲都可能給該公司帶來極其昂貴的代價。由於其在人工智能行業的主導地位,該公司已成爲全球最有價值的上市公司之一。該公司將於週三公佈季度收益結果。
歡迎將我們設爲“星標”,這樣才能第一時間收到推送消息。
和電子工程師們面對面交流經驗