顛覆性的HBM4
一位業內人士表示,“‘半導體遊戲規則’可能在10年內改變,區別存儲半導體和邏輯半導體可能變得毫無意義”。
HBM4,魅力爲何如此?
01
技術的突破
2023年,在AI技術應用的推動下,數據呈現出爆炸式的增長,大幅度推升了算力需求。據悉,在AI大模型領域,未來AI服務器的主要需求將從訓練側向推理側傾斜。而根據IDC的預測,到2026年,AIGC的算力62.2%將作用於模型推理。同時,預計到2025年,智能算力需求將達到當前的100倍。
據悉,自2015年以來,從HBM1到HBM3e各種更新和改進中,HBM在所有迭代中都保留了相同的1024位(每個堆棧)接口,即具有以相對適中的時鐘速度運行的超寬接口。然而,隨着內存傳輸速率要求不斷提高,尤其是在DRAM單元的基礎物理原理沒有改變的情況下,這一速度將無法滿足未來AI場景下的數據傳輸要求。爲此,下一代HBM4需要對高帶寬內存技術進行更實質性的改變,即從更寬的2048位內存接口開始。
接口寬度從每堆棧1024位增加到每堆棧2048位,將使得HBM4具備的變革意義。
當前,生成式人工智能已經成爲推動DRAM市場增長的關鍵因素,與處理器一起處理數據的HBM的需求也必將增長。未來,隨着AI技術不斷演進,HBM將成爲數據中心的標準配置,而以企業應用爲重點場景的存儲卡供應商期望提供更快的接口。
根據DigiTimes援引Seoul Economy的消息:下一代HBM4內存堆棧將採用2048位內存接口。
將接口寬度從每堆棧1024位增加到每堆棧2048位將是HBM內存技術所見過的最大變化。自2015年以來,從HBM1到HBM3e各種更新和改進中,HBM在所有迭代中都保留了相同的1024位(每個堆棧)接口。
採用2048位內存接口,理論上也可以使傳輸速度再次翻倍。例如,英偉達的旗艦Hopper H100 GPU,搭配的六顆HBM3達到6144-bit位寬。如果內存接口翻倍到2048位,英偉達理論上可以將芯片數量減半到三個,並獲得相同的性能。
回顧HBM發展歷史,由於物理限制,使用HBM1的顯卡的內存上限爲4GB。然而,隨着時間的推移,SK海力士和三星等HBM製造商已經改進了HBM的缺點。
HBM2將潛在速度提高了一倍,達到每個堆棧256GB/s,最大容量達到8GB。2018年,HBM2進行了一次名爲HBM2E的小更新,進一步將容量限制提高到24GB,並帶來了另一次速度提升,最終達到峰值時的每芯片460GB/s。
當HBM3推出時,速度又翻了一番,允許每個堆棧最大819GB/s。更令人印象深刻的是,容量增加了近三倍,從24GB增加到64GB。和HBM2E一樣,HBM3看到了另一箇中期升級,HBM3E,它將理論速度提高到每堆棧1.2 TB/s。
在此過程中,HBM在消費級顯卡中逐漸被更便宜的GDDR內存所取代。HBM越發成爲成爲數據中心的標準配置,以企業應用爲重點場景的存儲卡供應商們期望提供更快的接口。
有機遇就有挑戰
目前,HBM主要是放置CPU/GPU的中介層上,並使用1024bit接口連接到邏輯芯片。SK海力士目標是將HBM4直接堆疊在邏輯芯片上,完全消除中介層。HBM4很可能與現有半導體完全不同,散熱問題也隨之而來。因此,要想爲邏輯+存儲這一集成體散熱,可能需要非常複雜的方法,液冷和浸沒式散熱或是解決方案。
HBM主要是通過硅通孔技術進行芯片堆疊,以增加吞吐量並克服單一封裝內帶寬的限制,將數個DRAM裸片像樓層一樣垂直堆疊。在HBM4技術實現上,一個模塊中堆疊更多的內存芯片的技術複雜性必然將進一步提高,主要難題在於需要增加硅通孔數量並縮小凸塊間距。
例如爲了生產 HBM4 內存堆棧(包括 16-Hi 堆棧),三星需要完善 SangJoon Hwang 提到的幾項新技術。其中一項技術稱爲 NCF(非導電薄膜),是一種聚合物層,可保護 TSV 的焊接點免受絕緣和機械衝擊。另一種是 HCB(混合銅鍵合),這是一種鍵合技術,使用銅導體和氧化膜絕緣體代替傳統焊料,以最大限度地減少 DRAM 器件之間的距離,並實現 2048 位接口所需的更小的凸塊。這不是一項簡單的工作。
02
入局
三星電子的技術團隊執行副總裁兼 DRAM 產品主管 SangJoon Hwang在公司博客文章中寫道“展望未來,HBM4 預計將於 2025 年推出,其技術針對正在開發的高熱性能進行了優化,例如非導電薄膜 (NCF) 組裝和混合銅接合 (HCB),”。
儘管三星預計 HBM4 將於 2025 年推出,但其生產可能會在 2025-2026 年開始,因爲業界需要爲該技術做大量準備。與此同時,三星將爲客戶提供數據傳輸速率爲 9.8 GT/s 的 HBM3E 內存堆棧,每個堆棧的帶寬爲 1.25 TB/s。
在封裝技術方面,三星採用了無凸點鍵合技術。無凸點鍵合是一種先進的封裝技術,它將芯片與芯片之間直接進行連接,無需使用傳統的微凸點鍵合。這種技術可以顯著提高內存的I/O速度和可靠性,同時降低了製造成本。
三星在無凸點鍵合技術上的突破得益於其在封裝領域的深厚積累和技術積累。通過不斷研發和創新,三星成功地將無凸點鍵合技術應用到HBM4內存的生產中,實現了銅層與銅層之間的直接互連。這種直接互連的方式可以大幅度提高內存的傳輸速度和穩定性,同時降低了功耗。
三星在HBM4內存技術的發展中展現了強大的研發實力和技術創新能力。通過工藝學習和封裝技術的創新,三星成功地將FinFET立體晶體管和無凸點鍵合技術應用到HBM4內存的生產中。這些新技術的應用使得HBM4內存具有更高的性能、更低的功耗和更低的製造成本。
今年早些時候,美光透露“HBMNext”內存將於 2026 年左右出現,提供 32GB 至 64GB 之間的每堆棧容量以及每堆棧 2 TB/s 或更高的峰值帶寬,較 HBM3E 的每堆棧 1.2 TB/s 顯着增加。要構建 64GB 堆棧,需要具有 32GB 內存設備的 16-Hi 堆棧。儘管 HBM3 規範也支持 16-Hi 堆棧,但到目前爲止還沒有人宣佈此類產品,而且看起來如此密集的堆棧只會通過 HBM4 進入市場。
11月,據韓媒中央日報(Joongang.co.kr)報道,韓國內存芯片大廠SK海力士正計劃攜手英偉達(NVIDIA)開發全新的GPU,擬將其新一代的高帶寬內存(HBM4)與邏輯芯片堆疊在一起,這也將是業界首創。SK海力士已與英偉達等半導體公司針對該項目進行合作,據報道當中的先進封裝技術有望委託臺積電,作爲首選代工廠。
SK海力士目標是將未來的HBM4以3D堆疊的形式堆疊在英偉達、AMD等公司的邏輯芯片上,預計該HBM4內存堆棧將採用2048位接口。
圖:SK海力士HBM4計劃連接方式(來源:韓國中央日報)
外媒Tom’s Hardware指出,這種設計與AMD V-Cache類似,後者將一小塊L3緩存(cache)直接放在CPU頂部,新技術則是則將GPU所有HBM內存放在GPU頂部或幾個芯片的頂部。
這種技術優點是縮小封裝尺寸、提高容量和性能,但散熱將是最大問題。比如採用V-Cache的AMD CPU,必須降低TDP和主頻,以補償3D cache產生的額外熱量,像英偉達H100這種數據中心GPU,需要80-96GB的HBM,在容量和熱量與V-cache完全難比擬。現在一塊計算中心計算卡的功耗可能是幾百瓦,即便只是HBM部分也相當耗電,要做好散熱可能需要非常複雜的方式。
另外,選擇這種集成方法也將改變芯片的設計和製造方式,存儲器與邏輯芯片將採用相同的工藝技術,而且會在同一間晶圓廠生產,確保最終的性能。如果僅考慮DRAM的成本,那麼確實會有較大幅度的增長,所以各方都還沒有真正認真考慮這一方案。
據瞭解,SK海力士正在與包括英偉達在內的芯片設計公司討論HBM4集成設計方案。SK海力士和英偉達可能從一開始就進行了合作,而且會選擇在臺積電生產,將使用晶圓鍵合技術將SK海力士的HBM4堆疊在邏輯芯片上。
此前,SK海力士的一位負責人曾強調,“最關鍵的作用是製造工廠(FAB)和封裝部門之間的緊密溝通,因爲HBM需要在後處理方面進行先發制人的投資。”他補充道:“SK海力士已經能夠開發出與競爭對手不同的封裝技術,並從合作伙伴那裡獲得長期獨家的關鍵材料。”
面對三星的競爭,SK海力士並不擔心。“雖然三星電子可以通過同時提供存儲器和邏輯芯片工藝來引領HBM領域。”但SK海力士的一位負責人表示,“客戶不希望一家公司佔據主導地位,他們目前重視英偉達、臺積電和SK海力士之間的合作。”