智算“萬卡”潮起,國產AI芯片迎高光時刻
GPU萬卡集羣,小米下場了!摩爾線程智算集羣擴展至萬卡!中國移動將商用三個自主可控萬卡集羣......一系列標題的襲來,讓筆者突然意識到,彷彿在不經意間,智能算力建設已然邁入萬卡時代。
那麼到底什麼是萬卡集羣?萬卡集羣到底有哪些作用?有必要部署萬卡集羣嗎?
01 什麼是萬卡集羣?
萬卡集羣,是指由超過一萬張加速卡(如GPU、TPU或其他專用AI加速芯片)組成的高性能計算系統,用以加速人工智能模型的訓練和推理過程。
至於爲什麼需要一萬張加速卡?
衆所周知,大模型競賽的本質是算力競賽。比如這裡有一個超大土堆,放一個工人和放一萬個工人,在效率上肯定會有質的飛躍。
以OpenAI訓練GPT模型爲例,GPT-4需要使用2.5萬張英偉達A100 GPU,並行訓練100天左右的時間,在此期間要處理13萬億個token,並且涉及大約1.76萬億個參數。在不久的將來,開發大模型所需的算力將實現指數級的增長,對於即將亮相的GPT-5,預計該模型的訓練需要部署20萬~30萬個H100 GPU,耗時130~200 天。
如今OpenAI發佈ChatGPT已有兩年的時間,從建設進度上看,海外頭部廠商在2022年、2023年已經完成萬卡集羣搭建。比如2023年5月,谷歌推出的AI超級計算機A3,搭載了約26000塊英偉達H100 GPU;2022年,META宣佈了一個由1.6萬塊英偉達A100 GPU組成的集羣。到了2024年初,META進一步擴大規模,建成了兩個各含24576塊GPU的集羣,並設定了宏偉目標:到2024年底,構建一個包含35萬塊英偉達H100 GPU的龐大基礎設施。亞馬遜Amazon EC2 Ultra集羣採用了2萬個H100 TensorCore GPU。
再看中國的智能算力建設情況。
02 國產萬卡集羣,誰在佈局?
日前,中國工程院院士鄭緯民指出,“構建國產AI卡的萬卡大模型訓練平臺很難,但也很重要以及必要。”
當下,國內已有多家廠商及機構着手向萬卡集羣領域拓展業務。
根據《智算產業發展研究報告(2024)》顯示,在中國,超萬卡集羣的智算中心已達十餘個。
今年以來, 中國移動 、聯通、電信三大運營商均在加速推進超萬卡集羣智算中心的建設。
今年8月,中國電信在智算網絡建設方面取得了顯著進展,其上海與北京兩大萬卡集羣已成功投產運營。
中國移動位於呼和浩特、哈爾濱、貴陽的萬卡級別的智算中心已經先後投產運行。據悉,三大集羣總規模近6萬張GPU卡,充分滿足大模型集中訓練需求。
中國聯通正在打造上海、呼和萬卡智算集羣,全網智算算力超15EFLOPS,發佈AICC、AICP、星羅調度平臺等五大智算產品,提供涵蓋國家“東數西算”樞紐、31省重點城市、超600邊緣節點的AIDC基座。
小米也正計劃建設一座GPU萬卡集羣。據悉,小米在其大模型團隊成立時已經擁有6500張GPU資源。
字節在2023年就已建立起超過1萬張卡的Ampere架構GPU (A100/A800) 集羣,此後還在建設大規模Hopper架構(H100/H800)集羣。
如今,“萬卡集羣”被業界視作是這一輪大模型競賽的“入場券”,甚至還有不少廠商已經開始佈局“十萬卡集羣”。
百度的百舸 4.0 通過一系列產品技術創新,已經能夠實現十萬卡集羣的高效管理。
阿里巴巴的阿里雲可實現芯片、服務器、數據中心之間的高效協同,支持 10 萬卡量級的集羣可擴展規模,已服務全國一半的人工智能大模型企業。
騰訊已宣佈自研星脈高性能計算網絡全面升級,星脈網絡 2.0 搭載全自研的網絡設備與 AI 算力網卡,能夠支持超 10 萬卡大規模組網,網絡通信效率比上一代提升 60%,讓大模型訓練效率提升 20%。
03 國產AI芯片公司,得到利好
顯然,在運營商以及科技巨頭紛紛入場佈局之際,國產 AI 芯片公司也迎來利好。
華爲昇騰
據悉,以政府爲主導的城市智能計算中心多采用國產A1芯片中的佼佼者如華爲昇騰等,其中華爲更是在統計的20多個城市爲主體的智能計算中心中佔據79%的市場份額,處於國產AI芯片的領先位置。在可預見的2025年,昇騰芯片及服務器的市場依舊會處於緊張的供給局面。
寒武紀
2023年寒武紀思元(MLU)系列雲端智能加速卡在中國移動正式上線。截至2023年12月,中國移動已有12個省公司、超過70個AI業務完成向寒武紀思元系列雲端智能加速卡的遷移。
2024年8月,中國移動雲能力中心參建的全球運營商最大單集羣智算中心——中國移動智算中心(哈爾濱)正式投產使用。該智算中心部署超1.8萬張AI加速卡,AI芯片國產化率達100%,可提供6.9EFLOPS(每秒690億億次浮點運算)智能算力。據悉,該智算中心就是由寒武紀參與建設。
南京智能計算中心由南京市麒麟科技創新園與浪潮、寒武紀共同打造,採用浪潮AI服務器算力機組,搭載領先的寒武紀思元270和思元290智能芯片及加速卡,已運營系統的AI計算能力達每秒80億億次 (800P OpS)。
大模型爆火的當下,AI的訓練和推理芯片及訓推一體化等芯片成爲市場“香餑餑”,寒武紀在此領域的深耕研發,加速思元系列芯片的迭代。
摩爾線程2023 年 12 月摩爾線程 KUAE 智算中心揭幕,這是國內首個以國產全功能 GPU 爲底座的大規模算力集羣,以全功能 GPU 爲底座,提供軟硬一體化的全棧解決方案。
2024 年 7 月,摩爾線程聯合中國移動通信集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司等,分別就三個萬卡集羣項目進行了戰略簽約,多方將聚力共同構建好用的國產GPU集羣。
燧原科技
2021年燧原科技與之江實驗室在之江實驗室南湖新園區簽約成立“燧原-之江人工智能芯片聯合研究中心”。
成渝智算中心由四川並濟科技投建,燧原科技提供搭建算力底座。
與此同時,燧原科技還助力太湖億芯(無錫)智算中心、甘肅慶陽算力樞紐的建設。
天數智芯
中國移動智算中心(呼和浩特)是全球運營商領域內規模最大的單體液冷智算中心,智算規模高達 6.7EFLOPS(FP16),擁有國家級 N 節點萬卡規模 AI 訓練場。
天數智芯在該項目中充分發揮天垓 150 產品的卓越性能與廣泛適用性,與新華三信息技術強強聯合,共同打造高性能 AI 訓練服務器。
壁仞科技
壁仞科技也參與中國移動呼和浩特智算中心項目。
此外,壁仞科技的壁礪系列通用 GPU 算力產品還在中國電信落地千卡集羣並開展商業化應用,另外在中國電信集團新一輪國產化 GPU 集採項目中,壁仞科技的主流 GPU 產品已經納入中國電信的集採名錄,成爲中國電信的主要 GPU 供應商。
沐曦科技
2024 年 11月,由上海聯通攜手加佳科技、沐曦共同打造的曦源一號 SADA 萬卡集羣算力項目第一期千卡國產算力集羣在上海聯通臨港機房正式落地。該項目以沐曦 GPU 芯片技術產品爲核心,着力構建集算力、算法、數據、產業應用爲一體的人工智能產業新生態。
據悉,沐曦和加佳科技已在上海、湖南、江蘇等多地建成智算中心,並計劃於2025年6月完成10000卡國產高質量算力建設。
04 何止“萬卡”,甚至要“百萬卡”
從早期智算中心艱難起步,一步步發展到如今 “萬卡” 規模的算力集羣紛紛落地,這無疑是巨大的飛躍。當下,行業頭部廠商更是將視野進一步拓寬,已然聚焦於更爲宏大的 “百萬卡” 目標。
近日,在AI市場快速增長的背景下,博通市值突破 1 萬億美元,創下歷史新高。
博通首席執行官陳福陽表示,他有信心在 2020 年代後期繼續加大對人工智能的投資。他指出,三年內,博通的客戶計劃構建配備數百萬個 AI 芯片的大規模計算集羣,從而推動市場大幅增長。
博通正與三大客戶合作開發 AI 芯片,計劃到 2027 年在網絡集羣中部署 100 萬個芯片。據CNBC報道,他估計,到 2027 年,其 XPU 和 AI 網絡組件的總市場規模將達到 600 億至 900 億美元。
雖然博通尚未正式公佈其芯片客戶,但分析師表示,該公司正在與谷歌、Meta 和字節跳動合作,以加速 AI 系統的訓練和部署。據《金融時報》報道,該公司已爲此開發了定製處理器。
05 “萬卡集羣”真的有必要嗎?
先說結論,“萬卡集羣”的建設一定是有必要的。
當前,我國智能算力供不應求的問題較爲突出,大模型對算力的需求增速遠超單顆 AI 芯片性能的提升步伐。相關報告顯示,2023 年,中國智能算力需求達 123.6EFLOPS,而供給僅爲 57.9EFLOPS,供需缺口一目瞭然。利用集羣互聯彌補單卡性能短板,或是現階段緩解 AI 算力荒最值得探索與實踐的有效途徑。
不過,在推進 “萬卡集羣” 建設進程中,有兩大關鍵難題亟待解決:其一,怎樣高質量完成建設任務,保證集羣在穩定性、高效性、兼容性等多方面達到標準要求;其二,建成後如何充分挖掘其應用價值,使其在人工智能訓練、大數據分析等適配場景發揮最大作用,杜絕資源空置與浪費現象。
首先,不妨將 “萬卡集羣” 類比爲參與 “多人多足” 遊戲的團隊,大家都清楚,讓一羣人如同一個人般整齊劃一地前行並非易事,要調度上萬張計算卡協同高效作業、達成性能的線性擴展、確保任務無間斷運行,這對集羣的設計、調度以及容錯能力都提出了極高挑戰。
其次,智算中心的建設只是一個開端,更重要的是後續的有效運用。
據報道,由於智算中心的投資、建設、運營通常由不同主體負責,前期建設方常常對後續運營模式、服務標準缺乏足夠考量,出現 “只管建設、不顧運營”、建設與運營脫節的情況,影響了客戶體驗,致使不少城市所建智算中心的機架利用率不盡人意。
從商業模式來講,智算中心大多以出租或售賣算力爲主要盈利手段,然而因行業尚未統一算力定價標準,不同智算中心價格差異懸殊,市場接納程度受限。
近期,多位智算中心領域從業者走訪國內各地智算中心後,他們中的一些人向《智能涌現》反饋,當前國內算力中心市場較爲低迷。一位業內人士透露:“就目前所掌握情況,多數機房出租率大致在 20% - 30% 區間浮動,部分企業級智算中心出租率甚至低至 10% 左右。”
要清楚,智算中心不僅前期需要投入鉅額資金購置 GPU 等 AI 芯片,後續運營階段同樣需要持續注資。
《智能涌現》不久前發文指出,一臺英偉達 H100 服務器(8 卡)租賃價格,已從年初的 12- 18萬元/月,下滑至目前的7.5萬元/月,降幅約50%。
若按照當前機房20%的利用率來算,一個英偉達H100千卡集羣智算中心每年營收僅2300 萬元(即7.5 萬元/月×12個月×128臺服務器×20%),這意味着,即便算力中心勉強維持運營,所得收入基本只能覆蓋一半的正常運營成本,前期投入的資本根本無從回本。
綜上所述,“萬卡集羣”已成爲智能算力時代的重要里程碑,標誌着我國在人工智能領域的算力建設邁上了新的臺階。從小米、中國移動等科技巨頭正積極佈局萬卡集羣,以期在這場大模型競賽中佔據有利地位。然而,萬卡集羣的建設並非易事,智算中心需要多長時間才能通過運營收入收回投資,行業也還需更多的探索。