☰

英偉達新一代GPU大翻車

AI巨頭英偉達昨日突發利空。據The Information報道，英偉達新一代 Blackwell 處理器在高容量服務器機架中存在嚴重的過熱問題。這些問題導致設計調整與項目延期，使谷歌、 Meta 和微軟等主要客戶對能否按計劃部署 Blackwell 服務器感到擔憂。

知情人士透露，Blackwell GPU 專爲 AI 和高性能計算（HPC）設計，但在配置 72 個處理器的服務器中出現過熱問題，此類服務器每個機架功耗最高可達 120 千瓦。過熱問題迫使英偉達多次修改機架設計，不僅限制了 GPU 性能，還可能損壞硬件。客戶因此擔心，這些技術問題會延遲數據中心的處理器部署進程。

爲應對這一難題，英偉達要求供應商調整機架設計，並與合作伙伴一起優化散熱系統。儘管這種工程改進是大規模技術發佈中的常規步驟，但也進一步推遲了產品交付時間。英偉達發言人針對此事對路透社迴應稱，公司正與雲服務提供商密切合作，設計調整屬於正常研發流程的一部分。英偉達希望通過這種合作，確保最終產品在性能和可靠性方面達到預期，同時加緊解決技術瓶頸。今年 3 月，英偉達展示了 Blackwell 芯片，當時曾表示將在第二季度發貨。但隨後出現延遲，可能會影響 Meta Platforms、Alphabet 旗下谷歌和微軟等客戶。英偉達的 Blackwell 芯片採用兩塊與該公司之前產品大小相同的方形硅片，並將它們組合成一個組件，使其在執行聊天機器人響應等任務時的速度提高了 30 倍。英偉達的一位發言人拒絕向The Information透露該公司是否已經完成 Blackwell 機架設計。此前，由於該處理器的設計缺陷會影響良率，英偉達不得不推遲 Blackwell 的生產。英偉達的 Blackwell B100 和 B200 GPU 使用臺積電的 CoWoS-L 封裝技術連接兩個芯片。該設計包括一個帶有局部硅片互連 (LSI) 橋接器的 RDL 中介層，支持高達 10 TB/s 的數據傳輸速度。這些 LSI 橋接器的精確定位對於該技術按預期運行至關重要。然而，GPU 芯片、LSI 橋接器、RDL 中介層和主板基板的熱膨脹特性不匹配導致了翹曲和系統故障。爲了解決這個問題，據報道英偉達修改了 GPU 硅的頂部金屬層和凸點結構，以提高生產可靠性。雖然英偉達從未透露有關這些變化的具體細節，但它指出作爲修復的一部分，新的掩模是必要的。目前還不清楚新的過熱問題是否會影響 Blackwell 的新發布日期（定於明年年初）。英偉達此前曾表示，希望銷售約 6 萬至 7 萬臺完整服務器，因此任何進一步的延遲都可能給該公司帶來極其昂貴的代價。由於其在人工智能行業的主導地位，該公司已成爲全球最有價值的上市公司之一。該公司將於週三公佈季度收益結果。

歡迎將我們設爲“星標”，這樣才能第一時間收到推送消息。

和電子工程師們面對面交流經驗

英偉達新一代GPU大翻車

相關資訊