破解智算能力瓶頸,異構生態謀突圍丨GAI進化論

21世紀經濟報道記者駱軼琪 鄭州報道

隨着AI大模型的快速發展,對計算複雜度的要求大幅提升,從原來的以CPU爲中心,演變爲包括CPU、GPU、ASIC等一系列計算單元爲承載的軟硬件融合趨勢下,智能計算產業亟需凝結新的應對之道。

2024中國算力大會期間,中國科學院院士、北京航空航天大學計算機學院教授錢德沛指出,異構智能計算是應AI之運而生的新型計算系統。所謂異構,就是用最經濟、高效的手段來滿足深度學習、大模型訓練推理等對計算的需求,與傳統強調雙精度浮動運算性能的超級計算不同,異構智算更多使用半精度浮動運算、整數運算,甚至更低精度的浮點運算。

“智算系統巧妙融合了多種計算單元,從指令系統、微系統架構、特殊加速部件、算法和軟件實現等多個層面來提高人工智能計算的性能,高度靈活地應對多樣化的AI應用場景,實現了性能和能效的雙重飛躍。”他分析道。

2024異構智算產業生態聯盟技術分論壇期間發佈的《異構智算產業趨勢與技術發展白皮書》指出,異構架構可以在人工智能技術快速突破創新的情況下,保證AI芯片依舊具有較好的兼容性和可擴展性,有效延長AI芯片的生命週期。同時,在傳統算力的侷限與蓬勃的市場需求共同作用下,通用算力、智算算力、超算算力、邊緣算力等不同類型和形態的融合的算力中心發展成爲大勢所趨。

正因這是一門融合的技術路線,顯然對計算芯片生態提出更高要求,不僅硬件層面的複雜度大幅提升,軟件層面生態更加多元,對此,業界在積極尋求標準化方案,以期以點帶面推動生態聚合和應用落地。

異構智算迫切

AI大模型持續迭代演進過程中,無論對底層基礎設施,還是對生態應用層都提出新的發展路線挑戰。

據美國開放人工智能研究中心(OpenAI)測算,2012年開始,全球大模型訓練所用的計算量呈指數級增長,平均每3.43個月便會翻一番。其中,OpenAI GPT-4約使用了價值7800萬美元的計算資源進行訓練,谷歌GeminiUltra的計算成本則高達1.91億美元。未來隨着人工智能技術應用的加速演進,現代化算力基礎設施將向超智融合發展、綠色低碳發展、多元服務發展轉化。

超智融合也即將超算能力和智算能力融合,是異構智算的表現形式。全球計算芯片龍頭都早已通過收併購等方式開啓能力建設。

英偉達的勁敵AMD,在2022年2月宣佈收購FPGA市場份額第一的賽靈思,以此構成CPU+GPU+FPGA模式,進而與英特爾的CPU+FPGA路線開啓競爭,英特爾則是在更早通過收購Altera完善了FPGA能力。

錢德沛指出,異構智算的崛起是一次產業生態重構。在此背景下,中國智算技術的發展面臨挑戰和機遇。首先,要在外部封鎖條件下,通過異構體系結構的創新和軟硬件協同,研發出滿足人工智能算力需求的智算系統。其次,要充分理解智算對計算機系統的新要求,以人工智能手段提高計算系統的能力,最終要使智能和計算深度融合,進而使智算計算深入融入各行各業——這些都呼喚更爲創新的解決方案與管理模式。

中國科學院計算技術研究所研究員張雲泉則分析,此前他有較長時間在地方超算中心工作,傳統來說,超算界並不喜歡異構架構,因爲這將大幅提升使用和管理芯片能力的複雜程度。

但在隨着對計算需求的持續發展,如今採用異構智算架構的好處也毋庸置疑:可以快速提升計算性能,同時功耗降低。

“但是爲了應對異構架構,確實還面臨很多挑戰。首先就是編程牆。”他進一步分析,傳統CPU芯片的編程語言很簡單,多是C語言、Java等,但一旦加上GPU後,就需要採用一套新的編程語言,如CUDA或OpenCL等。“這意味着更多編程成本的投入,還要重新學習編程語言。”

其次是數據評估,也即算法和算力卡需要相匹配,如果兩者不匹配,會導致大量時間用於數據搬運,讓算法執行速度大幅降低,這就需要持續優化算法。再是功耗難題,GPU加速卡會帶來功耗的大幅提升,過去傳統的數據中心日漸無法承載這種運轉需求。隨着功率密度提升,就要求數據中心的散熱技術要從風冷升級爲液冷技術。

“更重要是整個系統的可擴展性。在智算剛開始幾十臺、幾百臺服務器還可以滿足,但一旦到萬卡集羣后,一系列新問題會凸顯。這也是業界在提超智融合的原因。”張雲泉指出,隨着智算服務器數量增加,過去超算在發展過程中面臨過的困難也同樣會出現在智算上,因此,此前超算採用過的如並行技術、可靠性技術、綠色計算技術、存儲優化技術等,也都能用在智算中心上來解決挑戰。業界希望通過超算和智算融合,雙方互相借力,共同促進大模型時代的快速發展。

破解生態難題

異構計算囊括的計算單元遠高於單一計算芯片,正顯示出構建生態的迫切性。

北京大學計算中心繫統管理室主任、北京大學高性能計算校級公共平臺主任工程師樊春分析道,人工智能發展對軟硬件生態提出很大挑戰,這主要在於人工智能硬件的多樣化和軟件的碎片化,形成多對多的複雜映射。

同時,人工智能編程框架開發模式也豐富多樣,這導致每家硬件廠商生產出的硬件要能被良好使用,就需要適配大量開發框架和開發環境,這對廠商來說基本是不可能完成的任務。

由此,他所在機構提出在中間做算子層,讓各類型芯片和開發框架與算子層相對應,以此極大減少硬件廠商的負擔。

從2018年開始,其團隊着手人工智能算子相關標準化工作,希望以此一定程度緩解受制於人的難題。同時還針對算子標準接口設計、數據結構的抽象設計和量化評估模型等推進工作。

在超智算一體化架構平臺設計方面,目前也面臨亟待解決的問題。“舉例來說,超智算融合需要有較好的調度系統,但目前超算領域常用的主流調度系統,在支持國產芯片方面非常欠缺,曾有一些國內芯片公司試圖把支持自己芯片的部分代碼提交到開源組織去,但並沒有被接收。這更凸顯了搭建支持國內各類計算芯片調度系統的重要性。除此之外,在平臺層還需要一個算力中心門戶和資源管理平臺。”

對於整機環節,聯想中國基礎設施業務羣戰略管理總監黃山指出,聯想在實踐部署AI方案時,遇到的最大難點是故障恢復問題。結合一些大模型廠商的訓練實踐不難發現,假如數據中心集羣部署數量以十倍的速度增加,但其中出現故障的次數並非十倍,而是會更多。

“因此如何解決故障是我們和友商共同推動的方向。聯想已經累積了五年經驗,也希望藉助AI的手段,幫助解決複雜環境下故障診斷、識別、恢復的問題。”他續稱。

張雲泉介紹,異構智算產業生態聯盟看到這些現狀,在應對方面還沒有形成完全標準的答案,產業界都在實踐探索中。

“從去年開始,我們聯盟就在建設開放的智算體系、平臺體系,希望把產業界都拉進來。”他指出,希望藉助聯盟的力量,先通過聯盟與廠商、用戶合作,篩選出幾套異構計算方案,通過聯盟來推薦幾套更穩定、應用效果好的方案,推動落地。

在此過程中,制定標準也不可或缺。張雲泉指出,聯盟已經申請成立算力標準工作組,以期推動產業界形成合力。同時,聯盟也在推動凝練典型應用場景,通過了解特定場景下需要的配置,完善相關基礎能力。

黃山指出,要在互相開放的前提下,也即在聯盟領導下,有共同的目標去推進標準落地。他強調,這裡提到的開放,意味着GPU廠商需要向整機廠商提供代碼、私有SDK,在調優過程中,雙方共同推進不同規模能力測試。

天數智芯科技合作與發展部負責人、異構計算芯片研發中心主任樑斌也分析,爲了更好地提升效率,需要抱持更爲開放的態度,比如在算子庫編譯和調優方面,芯片設計公司需要更爲開放,讓整機廠商更好了解芯片底層的架構、性能,由此才能對異構智算的未來有所幫助。