數據流動的藝術:構建AI時代的高速通信網絡 | C位觀察
圖片來源:網絡
爲了實現算力層面的提升和追趕,國內有大量的廠商和從業者在各個產業鏈環節努力。但面對中短期內架構、製程、產能、出口禁令等多方面的制約,我們認爲從芯片層面實現單點的突破依舊是非常困難且不足的。然而,藉助國內電力、基建的優勢,通過多卡、多節點、多集羣的方式,以絕對數量上的堆積來取得突破,將是一條可行的路徑。其實,全球行業的發展也正遵循着這個趨勢,AI算力集羣正從千卡向萬卡甚至十萬卡的規模演進。這個突破方向的關鍵是如何搭建起龐大的集羣,如何讓千卡/萬卡能擰成一股繩以發揮更好的能效,我們認爲互聯通信將在其中扮演至關重要角色。因此本文主要會就數據中心內的互聯通信,尤其是節點/集羣間的通信,與大家進行分享交流。
算力、存儲、互聯通信-構建AI算力集羣“高速交通系統”三要素
自大模型時代開啓以來,產業界沿着Scaling Law在持續不斷推出更大參數的模型和更多模態的模型,由此帶來的海量數據的收集、分析和應用,使全行業的算力需求以驚人的速度激增。據統計,大模型訓練對於算力的需求約每三個月翻一倍。能否獲得更多、更高效的算力,成爲了各個“玩家”最核心的競爭力之一。在這波此起彼伏的囤卡、搭集羣、建數據中心的“軍備競賽”中,在摩爾定律逼近極限、單靠製程和架構帶來的單卡算力邊際提升效率放緩的背景下,除了花費大量資金和資源獲得計算卡、服務器絕對數量的囤積優勢外,如何在實際場景下充分發揮這些AI芯片的性能、如何持續提升數據中心整體的數據計算和處理效率,是產業正在探索的另一種可能事半功倍的方向。
通俗來看,如果將一個AI智算中心類比爲以數據爲中心的大型的交通運輸網絡,那麼構建和運行這個運輸網絡最核心的三個要素就是算力、存儲和互聯通信。在這個大型運輸網絡中,如果我們認爲每一個計算集羣就是一個綜合交通樞紐,那麼算力主要解決的是這個交通樞紐內單個站點的流量通行速度問題,存儲主要解決的是單個站點的流量上限問題,互聯通信主要解決的是樞紐內部站點和站點之間,以及樞紐和樞紐之間的運力問題。三者相輔相成、三管齊下來提升整個運輸網絡的運行速度和效率。
圖1:算力、存儲、互聯通信,構建數據中心“高速交通系統”的三要素
如何系統性地拓展這個“高速交通系統”用以處理更大規模的工作任務?目前業界主要有兩種方式:1)Scale-up(向上/垂直擴展):通過增加單個系統的資源(如芯片算力、內存或存儲容量)來提升其性能,即讓一個單一的系統變得更加強大; 2)Scale-out(橫向/水平擴展):通過增加更多的相同或相似配置的系統來分散工作負載,即添加更多的獨立系統來共同完成任務。
延續前述交通樞紐的類比,Scale-up是針對單一樞紐的擴容,用更大和更多的站點來提升內部承載和通行能力,比如英偉達通過集成36顆GB200x芯片推出的DGX GB200系統。而Scale-out則是建立和接入更多的樞紐來擴大整體的運輸網絡,例舉英偉達DGX SuperPOD,可以集成至少8個甚至更多DGX GB200系統,並通過不斷的拓展來實現數萬顆GB200芯片的聚集。
圖2:Scale-up vs Scale-out
從圖2中,我們可以清楚地看到,算力和存儲主要聚焦的還是Scale-up下單個樞紐內站點的規模和吞吐能力,大量的優化提升其實是來自於基礎設施硬件的性能和軟硬件的協同,對此業界通過架構、製程、介質、軟件生態等多個方面已經做出了大量的努力,國內外也已涌現出一批優質的企業。
但解決Scale-up後樞紐內越來越多站點的接入和站點間運力問題,以及Scale-out後越來越多樞紐的連接和運輸問題,則需要構建更好的運輸能力,即互聯通信的能力。與此同時,我們也觀察到數據中心整體規模和實際性能&效率提升的天花板,更多地從以往算力的約束轉變爲互聯通信的約束。換而言之,我們認爲未來集羣效率的提升重點會從計算轉變爲網絡。因此,本文會將筆墨重點放在構建高速通道、支持和提升點到點之間運力能力的互聯通信領域。
圖3:I/O帶寬與算力之間的差距逐漸擴大
圖4:AI算力基礎設施需要更好的互聯通信能力,突破計算效率和規模瓶頸
互聯通信-AI計算集羣的快速通道系統,解決樞紐內和樞紐間的運輸效率
AI計算集羣的互聯通信能力系統性的構建,主要來自三個方面,由內到外可以分爲1)Die-to-Die(裸片間)互連:發生在芯片封裝內,實現芯片內部不同功能模塊間的數據交換;2)Chip-to-Chip(片間)互聯:實現服務器內部,主板上不同芯片間(如 CPU-GPU,GPU-GPU)的數據通信;3)Board-to-Board(機間)互聯:在服務器外部的通信,實現服務器-交換機、交換機-交換機之間的數據傳輸,並層層疊加形成數據中心集羣的組網架構。
圖5:數據中心各層級互聯通信示意
爲何英偉達在計算領域能如此強勢?除了耳熟能詳的芯片架構和CUDA軟件生態外帶來的單芯片的性能優勢外,其在互聯通信領域的多年佈局,打出的一套面向Scale-up(NV Link、NV Switch)和麪向Scale-out (InfiniBand) 的組合拳,使得其在節點和集羣層面的性能和效率遙遙領先。
圖6:英偉達DGX H100 SuperPod內部網絡架構
從技術發展路線來看,Die-to-Die通信能力的提升目前主要依賴於2.5D/3D的先進封裝和更加統一規範的高速Serdes等,Chip-to-Chip互聯主要依靠更高速的PCIE、CXL協議以及英偉達獨有的NVLink技術等,但這兩條路線主要解決的還是芯片和服務器內部的通信效率,即我們前文提到的如何解決Scale-up的問題,這部分內容我們會在未來的系列文章中做更多的探討。但我們認爲, Scale-up因爲受到物理空間、佈線、工程實現等制約,整體可拓展的潛力和規模有限,而Scale-out作爲Scale-up的進一步延續,會更具規模性和拓展潛力。
在大模型時代,過往傳統AI單卡、單服務器或者單機櫃即可解決的計算任務,已指數級地提升到需要千卡、萬卡甚至是十萬卡的分佈式集羣來支持。因此,如何提升服務器外部Board-to-Board、節點間/集羣間的互聯通信能力,解決前面說的更爲關鍵的Scale-out帶來的通信挑戰,來構建整個數據中心的“高速運輸網絡”,變得越來越重要。那麼如何實現大規模的Scale-up?大模型時代需要什麼樣的數據中心網絡?需要什麼樣的軟硬件和技術支持?我們可以繼續往下一探究竟。
聚焦樞紐間的通行運輸效率,解決Scale-up的問題,大模型時代需要什麼樣的數據中心網絡?
大模型數據訓練量大,且主要通過數據並行和模型並行進行訓練,因此需要採取分佈式集羣、多節點的訓練方式,且節點之間需要進行中間計算結果的實時高頻通信,由此帶來數據通信的兩個新的大趨勢:1)網絡流量大幅增長;2)由傳統數據中心的南北向流量爲主轉爲AI數據中心的東西向流量爲主。
圖7:全球網絡流量保持高速增長
圖8:南北向流量往東西向流量轉變
爲了提高AI芯片有效計算時間佔比、避免網絡延遲和帶寬限制拖累AI訓練效率,對新型的AI數據中心通信網絡提出超大規模組網、超高帶寬、超低時延及抖動、超高穩定性和網絡自動化部署等大量新的需求,並促使網絡架構更新升級,從典型網絡架構(樹型)轉向多核心、少收斂形態(胖樹型、脊葉型)。
圖9:AI數據中心相較傳統數據中心,對通信性能和效率要求大幅提升
圖10:左側爲傳統數據中心網絡三層樹架構,右側爲AI數據中心三層脊葉架構
針對AI數據中心的低延遲、大吞吐、高併發等特點,傳統的TCP/IP網絡架構已無法滿足應用的需求。因爲傳統的TCP/IP網絡通信使用內核來發送消息,需要通過CPU來進行數據傳輸。這種通信模式具有較高的數據移動和數據複製開銷,使得CPU需要負責大量的協議開銷處理,從而導致更高的 CPU 負載和高流量,減慢其他任務的速度。面對這個問題,RDMA(Remote Direct Memory Access,遠程直接內存訪問)的橫空出世,爲節省數據傳輸步驟,提升通信效率帶來了實際意義。與傳統的IP通信不同,RDMA繞過了通信過程中的內核干預,允許網卡繞開CPU,主機可以直接訪問另一個主機的內存,大大減少了CPU開銷,將寶貴的CPU資源用於高價值的計算與邏輯控制上,從而提升了整體網絡吞吐量和性能。
目前主流RDMA方案包括三種,層次結構和網絡硬件設備各不相同:
圖11:IB、RoCEv1、RoCEv2、iWARP架構對比
IB vs RoCE,選擇高速鐵路還是高速公路?
從技術和性能角度出發,目前構建數據中心內這個數據“運輸高速系統”的最主流的兩大路線,就是以英偉達/Mellanox一枝獨秀、另闢蹊徑的IB,以及其他廠商組成的“反抗軍”、基於傳統以太網改造升級的RoCE。
更爲通俗的解釋來看,如果把傳統的通信網絡比作是國道,那麼IB就類似於一條另外新建的專有高速鐵路,運輸速度更快,效率更高,但只能跑基於軌道的高鐵;而RoCE就類似於基於現有的國道升級改造成高速公路,幫助之前跑在國道上的各類車型以更快的速度和效率通行。因此,IB就是一位“專精單項的高手”,而RoCE則是一位“全能選手”。下面我們就通過一張圖表,來看看它們在性能、部署複雜性、生態、成本等方面的較量:
圖表
通過表格直觀的對比,我們不難看出IB在傳輸性能、集羣規模、運維等方面具備一定優勢。因此,在短期內部分廠商受限於軍備競賽下的算力資源緊張,或是選擇藉助IB的特點來快速搭建出集羣用於模型訓練,或是因自身組網能力不足直接選擇英偉達成套的方案,IB在高性能計算領域暫時佔據了更大的市場。但從中長期來看,由於RoCEv2基於以太網這個更加龐大、開放的生態和更好的跨平臺支持,且具有更低的硬件成本和更廣泛的供應商選擇,隨着其性能逐步接近IB,將會憑藉其更好的經濟性和兼容性,獲得更加廣泛的市場。
當然,IB和RoCE都在不斷演進以應對未來的挑戰,包括如何持續提高可用性、如何支持更大規模的集羣等。IB的未來版本將繼續提升帶寬和降低延遲,以保持其在高性能計算中的領先地位;而RoCE則可能通過改進流控機制和擁塞管理,提高其在大規模網絡中的表現。此外,2023年7月硬件設備廠商博通、AMD、思科、英特爾、Arista和雲廠商 Meta、微軟等共同創立了UEC(Ultra Ethernet Consortium,超以太網聯盟),致力在物理層、鏈路層、傳輸層和軟件方面開發新的開放式“Ultra Ethernet”解決方案,旨在推進高性能以太網的發展,以應對增長的智能計算通信需求。UEC聯盟目前已有約70家成員公司,國內的華爲、新華三、星融元、阿里、騰訊、百度和字節等廠商亦是聯盟裡的核心成員。
圖12:UEC聯盟成員示例
與此同時,我們正驚喜地看到以太網追趕IB的腳步正在不斷加快。從技術路線來看,以太網已經緊追IB推出了800G的帶寬產品,並有了1,600G的規劃,且在時間線上並不落後。從下游客戶來看,近期無論是Meta用於訓練Llama的萬卡集羣,還是馬斯克希望打造的十萬卡集羣,都優先採用了以太網的方案。從競爭對手來看,英偉達作爲IB的領導者,也同步推出了全新的Spectrum-X以太網網絡解決方案,並在近日加入了UEC聯盟,業界認爲這是英偉達多年“孤軍奮戰”後的第一次“順勢而爲”。
圖13:IB和以太網帶寬路線圖
在RoCE這條高速公路上,交換機、網卡和交換芯片是我們認爲國內產業發展的核心基建
交換機、交換芯片和網卡是構建以太網基礎設施最核心的部件。其中,交換機是現代網絡&數據中心基礎設施的核心組件,集成了各個核心硬件和軟件操作系統,負責數據在網絡中的傳輸和路由,全球主要供應商包括思科、Arista、華爲等。交換芯片作爲交換機裡最核心的部件,決定了交換機的端口速率和吞吐量,技術門檻高,全球核心廠商包括英特爾、博通、Marvell等。網卡通過其物理接口與交換機相連,實現計算機與網絡物理層的連接,決定了數據的傳輸和卸載速度,全球核心供應商主要集中在Intel、英偉達和博通等。
圖14:交換機產業鏈
在交換機整機和操作系統層面,國內已經有一批具備全球競爭力的廠商,這其中既包括傳統通信大廠華爲、新華三等,也包括走白盒路線的銳捷、星融元等,它們紛紛推出了目前業界最高帶寬的、基於800G端口的51.2T自研交換機,在產品和解決方案能力上並不落後於海外。但在覈心交換機芯片和網卡領域,國內尚有較大差距,海外廠商佔據了絕大部分的市場份額。在交換芯片層面,海外大廠博通、Marvell等已開始批量出貨51.2T的交換芯片,實現了成熟的商業化,而國內的主流交換芯片還是以2.4T/3.2T爲主,性能較弱無法滿足大型互聯網、數據中心的需求。在網卡層面,海外大廠供應給數據中心的網卡主流傳輸速度已經達到200G/400G bps的水平,並已經開始引入800G bps的網卡,但國內目前RDMA網卡的最高性能仍處於100G bps的水平。
整體來看,雖然國內在交換芯片、網卡等層面尚有差距,但在基於以太網的集羣集成、核心交換機整機、光模塊等領域均已有大量的突破。我們認爲當前國內RoCE的產業階段,或許與當年的新能源汽車類似,首先在整體(整車/交換機整機)和某個核心零部件(鋰電池/光模塊)開始突破,再基於此帶動整個產業鏈的全面突破。
從行業發展來看,目前很多廠商仍舊堅持着過去傳統的封閉軟硬件系統和黑盒方案,從硬件的芯片、網卡、交換機整機,到軟件操作系統一起打包出售和交付。但我們認爲開放式的架構、開源的軟硬件生態纔是數據中心互聯通信未來的方向,例如白盒&軟硬件解耦的交換機產品、基於開源比如SONiC(Software for Open Networking in the Cloud)的雲原生&容器化的通用網絡操作系統、基於RoCE的商用網卡和交換芯片等。我們同樣堅信,只有堅持開放、開源,打造泛在的生態聯盟,國內纔有可能在這一領域實現全面的突破。
結束語
本期主要圍繞數據中心內,特別是集羣間Scale-out的互聯通信做了簡單的概述,我們看好國內基於以太網的互聯通信生態的發展,該技術路線也是國內公司未來在面對英偉達最有希望實現追趕的方向之一。雖然國內目前在交換芯片、網卡等硬件層面仍有差距,但已經有一批互聯通信領域的創業企業開始嶄露頭角,可以預見本土行業將會迎來一波新的發展機遇,尤其是基於開放、開源生態的商用產品和軟硬件解決方案廠商。
未來我們會圍繞互聯通信這一主題,在Die-to-Die互連、片間互聯、板間互聯等多個方向做更多的分享和交流。CMC資本將持續聚焦數據中心領域的核心技術和產業發展趨勢,依託基金團隊豐富的產業背景和深刻洞察,並結合AI算法廠商、芯片設計公司、晶圓廠、整機廠商等一線產業資源以及政府資源,在AI和算力基礎設施領域進行全面佈局,助力加速國產化的全面突破。
參考資料:
1. 中金公司研究部:“AI浪潮之巔系列InfiniBand VS以太網,智算中心網絡 需求迎升級”
2. 中金公司研究部:“通信技術10年展望系列 224G PHY已啓航,數據中心有線通信邁向新徵程”
3. Morgan Stanly Research:“AI Supply Chain - AI Datacenter Network Switch Also Growing”
4. https://mp.weixin.qq.com/s/t2TTCI7dIXefBmccsn81mQ
5. https://mp.weixin.qq.com/s/AR66iTrwj5QVsLI8pxM87A
6. https://mp.weixin.qq.com/s/mgppjGqPBQTAQxSvkSvvAw
7. https://mp.weixin.qq.com/s/N4gVhSUVMjGw50OKy0CTJQ
8. https://new.qq.com/rain/a/20240731A04LWP00
9. https://mp.weixin.qq.com/s/RyApSIT-wyrEzbiWEsvgZQ
10. https://mp.weixin.qq.com/s/_ccsHKM8G4lKdr3t4DuaLQ