華爲徐直軍:不是每個企業都要訓練自己的基礎大模型

新浪科技報導,徐直軍表示,智慧化必將是一個長期過程,算力是智慧化的關鍵基礎。而算力是依賴半導體工藝的,但我們必須要面對一個現實,那就是,美國在AI晶片領域對中國的制裁長期不會取消,而中國半導體制造工藝由於也受美國製裁,將在相當長時間處於落後狀態,這就意味着我們所能製造的晶片的先進性將受到制約。這是我們打造算力解決方案必須面對的挑戰。

立足中國,只有基於實際可獲得的晶片製造工藝打造的算力,纔是長期可持續的。華爲的戰略核心就是,充分抓住人工智慧變革機遇,基於實際可獲得的晶片製造工藝,計算、存儲和網路技術協同創新,開創計算架構,打造「超節點+集羣」系統算力解決方案,長期持續滿足算力需求。

他提到,大模型的技術突破大大加速了智慧化的進程,一段時間以來,各行各業幾乎言必稱大模型,紛紛建設AI算力,紛紛訓練大模型。這對於華爲這樣的算力提供商而言,無疑是重大利好。

但從長遠發展角度考慮,第一、不是每個企業都要建設大規模AI算力。AI伺服器,特別是AI算力集羣不同於通用x86伺服器,對供電、散熱等資料中心機房環境要求極高,且隨着大模型越來越大,AI算力也將走向更大規模,而且變化節奏快,AI伺服器快速升級換代,資料中心機房面臨要麼浪費、要麼滿足不了需求的困境。每個企業都要思考適合自己的獲取AI算力的方式,而不僅僅是建設自己的AI算力。

第二、不是每個企業都要訓練自己的基礎大模型。訓練出基礎大模型,關鍵是資料,而準備足夠多的高品質資料是很大挑戰,基礎大模型預訓練資料量進入10萬億tokens量級,這對於企業來說,不僅意味着高成本,同時是否能獲取到足夠的資料量也是挑戰。基礎大模型參數量在持續增大,模型反覆運算和優化難度大,通常需要數月到數年時間完成模型反覆運算訓練。每個企業都應聚焦自身核心業務,自行訓練基礎大模型會影響AI儘快賦能核心業務。

第三、不是所有的應用都要追求「大」模型。從華爲盤古在行業的實踐看,十億參數模型可以滿足科學計算、預測決策等業務場景的需求,比如降雨預測、藥物分子優化、工藝參數預測,在PC、手機等端側設備上,十億參數模型也有廣泛應用。而百億參數模型可以滿足面向NLP、CV、多模態等大量特定領域場景的需求,比如知識問答、代碼生成、坐席助手、安全檢測。面向NLP、多模態的複雜任務,可以用千億參數模型來完成。「所以我們認爲,企業需要的是根據自身不同業務場景需求,選擇最合適的模型,通過多模型組合,解決問題,創造價值。」