廣東科技向“新”力丨專訪鵬城實驗室主任高文院士:新一代“鵬城雲腦”填補國產智算上千億級大模型訓練空白

南方財經全媒體記者吳佳楠 深圳報道

近日,全省科技大會頒發了2023年度廣東省科學技術獎,來自深圳的鵬城實驗室牽頭研製的國產E級高性能人工智能算力平臺獲得廣東省科技進步獎特等獎。在獲獎之際,中國工程院院士、鵬城實驗室主任高文院士接受了包括南方財經全媒體記者在內的媒體採訪。

“鵬城雲腦Ⅱ”是首個全國產E級智算平臺,由鵬城實驗室聯合龍頭企業等單位研製。在國家、廣東省與深圳市的大力支持下,該項目基於國產NPU開展了E級智算架構關鍵技術攻關,成功研製了全自主高性能E級智算體系架構與集羣,研發了覆蓋高性能算子庫和編譯器的AI計算架構及一站式AI協同開發環境,解決了中高端NPU生態的國產替代問題,突破了大規模並行訓練技術,填補了國產智算上千億級大模型高效率訓練技術空白,已支持鵬城系列大模型等上千個AI模型訓練。

“省科技進步特等獎這一榮譽不僅是對團隊努力的認可,也是對國家科技發展戰略的支持和肯定。”高文表示,30多年前,中國是沒法做超級計算的,很多機器都是進口的,但到現在中國可以自己做超算,龍頭企業及其他芯片廠商都在努力打造國產芯片生態,這對國家構建自主高端的人工智能計算競爭力意義重大。

目前國內芯片綜合性能較強

南方財經:缺少高性能芯片已經成爲影響我國人工智能發展的重要問題。國產E級高性能人工智能算力平臺,能發揮什麼作用?跟一些龍頭企業建設的萬卡芯片集羣等相比有何區別?

高文:高性能單一芯片的處理能力要非常強,而且功耗不能太高,這就要求設計能力和工藝生產能力要比較強。我們希望把工藝做得再好一點,所以對於高性能芯片設計能力和製造工藝的要求是很強的。目前,我們設計的最新芯片跟國外比起來,可能在功耗上會有點被動,但在性能上總體來說沒有那麼大的制約,綜合起來的性能還是很強的,還不是到完全沒有防禦能力的階段或者斷崖式的性能落差。隨着時間的推移,我們可以通過三維堆疊技術集成,把國產最先進製程工藝芯片做到提升一個製程性能臺階,讓功耗節省一半。目前國內很多單位都在攻關新的製造工藝,慢慢地也在彌補短板。

南方財經:“鵬城雲腦II”有何突出技術優勢?研發過程中遇到哪些挑戰,如何解決?

高文:“鵬城雲腦II”做出來後,我們主要在做大模型的訓練,所以在通信技術上我們做了很多優化和設計,讓任何兩點之間的通信處理都控制在兩個微秒之內,讓通信的速度能夠提上來。去年,系統在跑的時候會出現一些故障的情況,大概每隔1到2天都會出現故障,就會導致整個機器都要停下來,然後再重啓,一開始一停下來就是5個多小時,這是很大的資源浪費。後面我們想了很多辦法,讓有了故障後,系統的重啓時間可以短一些,讓系統的工作效率可以提高。另外,去年我們也發現不同數據的組合、編排方式不同,導致訓練出來的結果也不一樣,所以我們儘量通過既有經驗,找出技術規律,把數據重新編排,讓模型訓練效果達到更佳。

南方財經:普通人如何直觀地理解E級算力?除了訓練大模型,“鵬城雲腦II”還有哪些可披露的主要工作?

高文:E級運算代表計算的速度是按照每秒10的18次方進行。鵬城雲腦的E級運算最大的功能就是可以提供很強勁的訓練AI模型的能力。訓練AI模型後有很多用途,過去實驗室也在這方面佈局了很多應用,比如面向智慧城市裡的智能交通流量分析的模型,比如病毒肆虐過程中,也可以用計算的方法來仿真模擬未來病毒可以變異的種類,就可以提前做好準備等。目前我們部署了八大應用軟件的研發,包括智慧城市、智能交通、金融、生物醫藥等領域,這些領域能全面支撐國家戰略需求、地方經濟社會發展需求和中小企業發展,比如深圳本地的雲飛勵天、優必選等公司都有用到來訓練自己的模型,促進企業的發展。

將技術成果應用在生活多方面

南方財經:該平臺成功研製了全自主高性能E級智算體系架構與集羣,如何助力企業轉型升級或催生新的產業形態?

高文:算力要走在世界第一梯隊,其實就是計算速度要足夠快。從這個角度講,也可以用一堆芯片堆起來完成這個指標,但用最好的工藝可以打造出相當於別人十幾個芯片能力的系統,集成度越高,優勢也就越強。儘管國內現在芯片設計製程受限,卻可以完成世界最好芯片的80%性能,但要注意這只是單個芯片的計算能力。

其實一個系統的能力不僅僅是靠單個芯片的簡單累加,因爲芯片連接的時候,還有很多通信體系結構的性能好壞,對整個系統有比較大影響的。所以我們在體系結構方面會引入更好的技術,通過整體系統就可以彌補單個芯片簡單疊加達不到的指標。現在國內在做高性能芯片方面,我們從硬件來講並沒有比西方落後,在這方面也沒有太多的挑戰性。

如果有很強的算力,很好的模型,能應用在生活上很多方面,比如自動駕駛,就需要把運行中各種各樣可能發生的情況放到系統模型內,等到下次這車再遇到同樣情況的時候,就知道怎麼處理。但是現有的系統,如果沒有數據做訓練的話,很難適應,可能會出現各種各樣的錯誤。所以自動駕駛系統不是一次訓練就結束了,要在第一次模型訓練好後,需要把每天更新的數據再重新訓練,這樣系統纔會越用越好用。所以有了好的算力系統模型,這方面的發展就會越來越快。又比如低空領域的物流方面,如果搭建好了低空的算力模型,送快遞時在“最後一公里”上靠低空就可以完成,那麼交通運輸部門的壓力也會緩解很多,這也是算力發揮效率的作用。

南方財經:“鵬城雲腦II”在構建國產智算生態方面做了哪些工作?如何促進中端GPU生態的自主創新?

高文:以前大家做大模型訓練,更多用英偉達芯片做的系統,這是因爲英偉達芯片做了接近20年,花了很多錢和精力去教育市場、培訓市場,也做了很多成功的案例,同時也在學術界發表了很多論文,由此慢慢把平臺做出來,直到國際上大家都廣泛接受。而在國內,如果你要從零開始做一樣的芯片,就要花大量的時間和金錢。但我們現在使用兼容搭橋的方法,把原來在國外企業寫的程序,轉換到國內龍頭企業編寫的程序,比較熟練的人大概10到20分鐘就能完成,由此讓原本熟悉國外生態的人,用國產芯片就比較簡單,就非常容易遷移到新的環境下。

對於國內的高校,我們也正在鼓勵他們直接在國產算力平臺生態上做東西,比如組織一些培訓營和比賽,通過培養一些新生代在新的平臺上使用,目前已持續了三四年的時間。現在用國產芯片做出來的系統越來越多,其實每個系統裡面的硬件都不盡相同,如果用別的系統設計的東西在上面跑程序,可能會造成損失,對於追求極致的程序員來說,當他熟練後,肯定還會用國產自主的平臺直接寫東西,這樣效率會更高,可能會提高5%~20%。所以我們也鼓勵國產企業能夠在這方面多給高校教育和學術組織做更多貢獻,讓整個生態慢慢做大,把精英留住。

南方財經:你如何看待廣東的科研環境和發展空間?對廣東科創領域有哪些建議?

高文:深圳總體創新生態環境很好,思維很活躍也很接地氣,研發活動與市場化是緊密對接,“鵬城雲腦II”做出來後,在真正使用的時候,除了大企業在真正關注外,政府也有很好的政策比如拿出10%的算力對創業企業進行開放,這個支撐效果也很好,所以深圳的中小企業願意跟着政府的節奏進行互動,也讓互動的渠道更加通暢。