對國內AI算力緊缺問題的若干看法

今天凌晨的蘋果WWDC證實了一點:AI推理算力將長期處於“雲端爲主”的狀態,這個“長期”至少是三到五年。是的,蘋果與OpenAI建立了戰略合作,計劃將下一代iOS系統與ChatGPT深度融合;但是絕大部分生成式AI推理,包括文字和圖片生成任務,仍將上傳到ChatGPT的數據中心,在雲端完成。關於這一點,OpenAI在公告中已經說得很清楚了。蘋果的“端側AI”主要仍侷限於軟件層面。

如果連蘋果都做不到推理算力的“端側化”,那麼其他手機廠商就更做不到了。PC端可能比移動端的進展稍微好一點,但是在可見的未來,大部分AI PC(包括桌面工作站)仍將基於英偉達的桌面級顯卡,而且只能執行參數規模相對較小的(蒸餾後的)大模型推理。無論從技術角度還是成本角度考慮,大模型及應用開發商都會更樂意在雲端即數據中心完成大部分推理任務。資本市場再次認識到了這一點,所以WWDC舉行之後,蘋果股價下跌而英偉達股價微漲。

在未來很長一段時間裡,我們不必過多考慮“端側算力”。既然如此,國內AI算力緊缺的問題,就不可能通過發展所謂“端側算力”的方式去解決。自從2022年11月底ChatGPT橫空出世以來,國內AI算力幾乎始終處於緊缺狀態,這是由下列因素共同決定的:

全球AI算力均十分緊缺,尤其在製造端,英偉達H系列顯卡僅能由臺積電代工(三星不行),產能瓶頸將持續到多年以後。

美國芯片出口禁令日益嚴格,尤其在2023年下半年的全方位加強之後,許多“後門”被堵上了,國內廠商採購數據中心級顯卡的難度與日俱增。

我們知道,AI大模型所需算力分爲訓練和推理兩種,前者的要求更高一些;國內的現狀則是兩種算力都缺乏。諷刺的是,前幾年國內發展雲遊戲期間,互聯網大廠和電信運營商均採購了一批英偉達Turing架構的顯卡用於架設RTX刀片服務器,這些顯卡可以用於AI推理;如果沒有云遊戲,國內推理算力的瓶頸將更加嚴重。中國遊戲產業是一個任勞任怨的背鍋產業,誰都能來踩一腳,誰都能污名化,但是拯救所謂“硬科技”產業偏偏還得靠它!

即便如此,國內AI推理算力的供需關係仍然十分緊張。所以,過去一個月國產大模型的“降價”舉措,很大程度上僅僅是行爲藝術罷了。尤其是對於B端客戶而言,無論大模型API的調用價格降到多低,關鍵在於能不能買到量。現在的問題就是“有價無市”:只有極小規模的採購才能以“刊例價”執行,稍大規模的採購就必須找銷售人員單獨洽談並排隊,實際成交價格難以預料(肯定遠高於“刊例價”)。

不要說B端用戶,哪怕C端用戶也能感受到推理算力的緊張:國內的幾個最流行的AI大模型應用,免費用戶在高峰期幾乎一定會遇到需要排隊的狀況,必須充值或打賞才能加快進度。要知道,目前國內主流生成式AI應用的DAU普遍只有幾百萬量級,推理算力就已經如此匱乏;如果真的出現上億DAU的AI超級應用,算力幾乎肯定是跟不上的——所以目前國內不可能出現這樣的超級應用。(注:文心一言和通義千問均自稱累計用戶超過1億、每日API調用次數超過1億,但是與1億DAU還差很遠;豆包估計也差很遠。)

可以想象,比推理要求更高的訓練算力更加緊缺。2024年2月,字節跳動在一篇論文當中公佈了它於前一年9月組建的“萬卡集羣”。遺憾的是,它是由1.2萬張(比較落後的)A100顯卡組成,而美國科技巨頭早已換上了由(更先進的)H100組成的“萬卡集羣”,例如Meta的LLaMA-3就是由2.5萬張H100組成的集羣訓練的;以亞馬遜爲代表的雲計算大廠正在積極轉向(更更先進的)B100及GB200算力集羣。A系列顯卡發佈於2020年,當時芯片禁令尚未出臺,國內採購沒有多大障礙;H系列發佈於2022年,芯片禁令已經出臺,但是國內仍然可以通過採購“專供版”(主要是H800)的方式繞過;B系列於2024年發佈,此時繞過芯片禁令的途徑已經非常狹窄、朝不保夕。

長期、嚴重的算力瓶頸,給國內AI產業帶來了兩個深刻影響:

下面我們不妨以問答的形式,進一步說明國內AI算力的現狀。問題是市場上最關心的那些問題,回答則不是來自我本人,而是來自我在雲計算和AI行業的信賴的朋友,我只是總結他們的答案罷了。

問:目前國內AI算力儲備及分佈狀況大致如何?

答:先說訓練使用的“大卡”。如果把A100-800、H100-800均算作“大卡”的話,那麼國內的“大卡”儲備肯定超過六位數,甚至可能超過了20萬張。問題在於隨着技術進步,A系列已經很難再被視爲“大卡”了。如果按照扎克伯格所謂的“H100等效算力”,國內的儲備肯定不超過六位數,而僅僅Meta一家的“H100等效算力”就已經超過了30萬張,2024年底將突破65萬張,遠遠超過了國內所有大廠的算力儲備之和。

具體到算力分佈,有兩個標準:第一是“掌握的算力”,第二是“能調用的算力”。阿里這樣的雲計算大廠掌握了巨大的算力,但其中很大一部分要出租給客戶,自家大模型訓練和推理能調用的算力未必有絕對優勢。如果只計算“掌握的算力”,國內第一的無疑是阿里,其次是百度、字節跳動,騰訊可能更少一點。掌握一兩千張大卡的互聯網公司很多,因爲內容推薦算法、自動駕駛訓練等環節都需要。

至於推理算力的分佈就更加駁雜了。上文提到過,雲遊戲使用的顯卡可以承擔一定的推理任務,目前國內的推理算力可能有很大一部分來自以前的雲遊戲算力。

問:怎麼看AI算力的國產替代?

答:在訓練端難度極大,哪怕某些國產顯卡自稱其技術參數能達到A100的水平,它們也不具備NVlink互聯技術和CUDA開發環境,從而無法承擔大模型訓練使命。況且,A100是英偉達2020年發佈的產品,在2024年“追上”前者四年前的水平並無先進性可言。大模型不是原子彈,它是一種重視性價比的民用商品,使用非主流硬件開發出來的大模型可能毫無商業價值可言。

但是在推理端,不是完全沒有可能,因爲推理卡對NVlink和CUDA的依賴程度很小。英偉達在推理端的城牆仍然很高,但是比起訓練端就要差了不少。問題在於,推理算力的技術路線也在不斷變遷,技術變遷的領導者還是英偉達。假如有選擇的話,主流大廠肯定樂意採購英偉達的推理解決方案。國內廠商的問題是在芯片禁令之下沒有選擇,在推理端進行國產替代總歸比沒有強。

問:怎麼看Groq以及國內某些廠商推出的“遠超英偉達”的推理卡?

答:在高度特化的技術路線下,確實有可能做出表觀技術遠超英偉達同期產品的推理卡——但是付出的代價是應用場景十分狹窄。這樣的顯卡不僅只勝任大模型推理,甚至可能僅勝任某一特定類型的推理。大廠建立數據中心需要考慮通用性以及後續升級需求,高度特化的顯卡無法滿足這些需求。上面提到過,雲遊戲使用的顯卡可以用於推理,但高度特化的推理卡可以執行圖形渲染任務嗎?可以執行自動駕駛等非生成式的推理任務嗎?

而且,硅谷那些不差錢的大廠,現在流行以“大卡”同時執行訓練和推理任務:速度更快、更具靈活性、管理起來更方便。你的訓練任務在全年之中不是平均分佈的,可能這三個月訓練消耗的算力多一些,接下來推理消耗的算力多一些,統一組建“大卡”集羣有助於提升靈活性。當然,這樣做不夠經濟,所以推理任務主要還是得由推理卡去執行。我只是想說,英偉達在訓練端和推理端的護城河是相輔相成的,不是彼此孤立的。

問:繞過芯片禁令的可能性大嗎?目前大家的替代方案是什麼?

答:很多人認爲,芯片禁令可以以“非正常”手段繞過。但他們忽視了兩點:第一,英偉達高端顯卡近年來一直供不應求,所以不存在龐大的二手及散貨市場,哪怕是海外大廠淘汰下來的顯卡一般也是內部發揮餘熱。第二,即便你能繞過英偉達官方銷售獲得一些顯卡,也無法獲得技術支持。

H系列和B系列訓練卡都不是單片出售的,而是以服務器(訓練機)爲單位出售。B系列訓練機已經非常像高端數控機牀這樣的高精尖設備,內部可以植入地理位置判斷系統,發現地理位置偏移之後可以自動停機。所以無論在理論上還是實踐中,只要英偉達願意認真執行芯片禁令,就是很難繞過的。雖然英偉達肯定願意多賣幾個客戶、開拓中國市場,但現在它的顯卡反正不愁賣,短期內也不可能主動承擔破壞禁令的風險。

當然,一切都是可以談的。只要雙方都想認真做生意,拿出一些東西做交換,沒有什麼生意是一定做不成的。關鍵看大家做生意的意願有多強烈了!我們不能低估解決問題的難度——因爲只有充分估計難度,才能站在現實角度解決問題。片面低估難度並裝做問題已經解決是不可取的,相信真正的從業者不會這樣做。