GPU戰火重燃

來源:內容由半導體行業觀察(ID:icbank)原創,作者:李晨光,謝謝。

從早期“百家爭雄”,到英偉達“一統江湖”,再到如今AMD、英特爾欲“三分天下”。

GPU在技術與市場的不斷變換輪轉中,迎來一次次蛻變與重塑。

GPU(Graphic Processing Unit),圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、遊戲機和一些移動設備上做圖像和圖形相關運算工作的微處理器。

由於可視化需要大量的圖形、圖像計算能力,無論是雲端還是邊緣側都需要大量的高性能圖像處理能力,因此近年來GPU實現了較快的市場增速。同時,隨着GPU自身在並行處理和通用計算的優勢,逐步拓展了其在服務器、汽車、礦機、人工智能、邊緣計算等領域的衍生需求。

據數據統計,2020年全球GPU行業規模爲200億美元,預計2021年將增長15%。從2015年到2025年,GPU行業預計平均每年增長13%,將從80億美元擴展到350億美元的規模。

GPU可以按照兩種方式進行分類:按照接入方式可以分爲集成GPU和獨立GPU,集成GPU將圖形核心以單獨芯片的方式集成在主板上或CPU芯片上,並且動態共享部分系統內存作爲顯存使用,因此能夠提供簡單的圖形處理能力,以及較爲流暢的編碼應用;獨立GPU擁有單獨的圖形核心和獨立的顯存,能夠滿足複雜龐大的圖形處理需求,並提供高效的視頻編碼應用。

另一種是根據應用端的不同可以分爲PC GPU、移動GPU和服務器GPU。PC GPU是用於PC端,既有獨立也有集成;移動GPU用於移動端,一般都是集成;服務器GPU是專爲計算加速或深度學習應用的獨立GPU。

GPU分類及代表廠商

GPU發展歷程,英偉達一統江湖

在PC誕生之初,並不存在GPU這個概念,所有的圖形和多媒體運算都由CPU負責。但是由於X86 CPU的暫存器數量有限,適合串行計算而不適合並行計算。以英特爾爲代表的廠商多次推出SSE等多媒體拓展指令集試圖彌補CPU的缺陷,但僅僅在指令集方面的改進起不到根本效果,所以誕生了圖形加速器作爲CPU的輔助運算單元。

追溯GPU的歷史,要從圖形顯示控制器說起。世界上第一臺個人電腦IBM5150於1981年由IBM公司發佈,這臺PC搭載了黑白顯示適配器(MDA)和彩色圖形適配器(CGA),這便是最早的圖形顯示控制器。後來,IBM又推出EGA,並於1987年提出了VGA標準,VGA在文字模式下可支持720×400分辨率,繪圖模式下可支持640×480×16色和320×200×256色輸出,爲了保證兼容性,當今的顯卡依然會遵循VGA標準。

從MDA到VGA,圖形圖像的運算都由CPU來完成,圖形卡的作用主要是將其顯示出來。1991年,S3 Graphics推出的“S3 86C911”,正式開啓2D圖形硬件加速時代,它能進行字符、基本2D圖元和矩形的繪製。到了1995年,幾乎所有的顯卡都具備2D加速功能,2D圖形接口GDI、DirectFB等也都相繼出現,並延續至今。

1994年,3DLabs發佈的Glint 300SX是第一顆用於PC的3D圖形加速芯片,它支持高氏着色、深度緩衝、抗鋸齒、Alpha混合等特性,開啓了顯卡的3D加速時代。然而這個階段的顯卡大多沒有執行統一的標準,加速功能也不盡相同。能夠看到,GPU概念推出之前,ATI、英偉達、3DFX等公司在此領域展開激烈競爭,推動着圖形處理芯片的發展。

直到1999年,英偉達推出GeForce256圖形處理芯片時,首次提出了GPU的概念,它整合了硬件變換和光照(T&L)、立方環境材質貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等,並且兼容DirectX和OpenGL,被稱爲世界上第一款GPU。

GPU的出現(硬件T&L的引入)使計算機減少了對CPU的依賴,並解放了部分原本CPU的工作。2001年微軟發佈DirectX 8,提出了渲染單元模式(shader model)的概念。從此,GPU從硬件T&L進入shader時代,此時的GPU架構還是固定管線。

固定管線架構持續多年,直到微軟推出DirectX 10,shader不再扮演固定的角色,每一個shader都可以處理頂點和像素,這就是統一渲染着色器(unified shader),它的出現避免了固定管線中頂點着色器和像素着色器資源分配不合理的現象發生,使得GPU利用率更高。

第一款採用統一渲染架構的GPU是ATI在2005年與微軟合作的遊戲主機XBOX 360上採用的Xenos,它是ATI第一代統一渲染架構。而真正具有影響力的,是英偉達在2006年發佈的GeForce 8800 GTX(核心代號G80),成爲第一款採用統一渲染架構的桌面GPU,其架構影響了日後的數代產品,是一款極具劃時代意義的GPU。

與G80一同發佈的,還有著名的CUDA,它能利用英偉達 GPU的運算能力進行並行計算,拓展了GPU的應用領域,然而這時的CUDA只能算是GPU的副業。2011年TESLA GPU計算卡發佈,標誌着英偉達將正式用於計算的GPU產品線獨立出來,憑藉着架構上的優勢,GPU在通用計算及超級計算機領域,逐漸取代CPU成爲主角。

在早期的圖形處理器市場中玩家衆多,3DFX通過推出Voodoo 3D加速卡在當時領先於市場同行。英偉達由於蔑視當時的主流標準,採用自創的四邊形成像(QTM)技術,在同時期打造的NV1和NV2都未成功。此後陸續推出RIVA系列和TNT、TNT2,逐漸佔據市場主流地位,並最終通過1999年的GeForce256擊敗3DFX,並於2000年英偉達將3DFX的知識產權買斷。

在進入21世紀後,英偉達從此前的蠻荒時代中脫穎而出,市場中主要還剩下英偉達和ATI。ATI在1985年至2006年之間是全球重要的顯示芯片公司,2000年ATI推出Radeon品牌,從此與英偉達開創了獨立GPU領域兩強爭霸的格局。2006年AMD斥資54億美元收購ATI,旨在融合CPU和GPU。在AMD收購ATI之後的重心更多地轉向中低端市場,性能端漸漸落後於英偉達。而後英偉達牢牢掌控着高端市場,AMD的GPU則成爲了性價比的代名詞。

目前,獨立顯卡市場主要由英偉達和AMD兩家佔據。市場調查機構——Jon Peddie Research發佈的二季度顯卡市場報告顯示,在目前獨立顯卡市場中,目前AMD和NIVDIA兩大廠商居於統治地位,從市場份額上來看,AMD獨顯份額爲17%,英偉達則增長到了83%。英特爾在前不久宣佈進軍高端獨立顯卡市場,預計首款產品將於明年問世。

來源:JPR、海豚投研

報告顯示,英偉達在顯卡市場中表現強勁,市場佔有率和出貨量均有明顯增長。AMD則需要面臨顯卡和處理器雙線作戰,產能更顯緊張,所以市場份額呈現了下降的趨勢。

英偉達的GPU架構自2008年以來幾乎一直保持着每2年一次大更新的節奏,帶來更多更新的運算單元和更好的API適配性。在工藝製程方面,英偉達GPU從2008年GT200系列的65nm製程逐步升級到了RTX3000系列的7/8nm製程,在整個過程中,晶體管數量提升了20多倍,使英偉達GPU的能效提升了數十倍,佔領了獨立顯卡技術的制高點。

2008-2020英偉達GPU微架構進化(圖源:慧博資訊)

英偉達通過對產品的打磨,從衆多顯卡廠商中脫穎而出,鑄就了GPU高端市場的壟斷地位。同時隨着自動駕駛、AI、AR/VR等領域的興起,擁有領先優勢的英偉達有望繼續領跑市場,憑藉產品的領先性和稀缺性,鞏固自身行業地位。

根據前十多年的GPU發展軌跡來看,GPU微架構的升級趨勢可以簡要地概括爲“更多、更專、更智能”。“更多”指的是晶體管數量和運算單元的增加,其中包括流處理器單元、紋理單元、光柵單元等數量上升;“更專”是指除了常規的計算單元,GPU還會增加新的運算單元。例如,英偉達的圖靈架構相較於帕斯卡架構新增加了光追單元(RT Cores)和張量單元(Tensor Core),分別處理實時光線追蹤和人工智能運算;“更智能”是指GPU的AI運算能力上升。如第三代的張量單元相較於上代在吞吐量上提升了1倍。

此外,在整個過程中,英偉達一直堅持不採用IDM的模式,而是讓臺積電負責GPU的製造,自生專注於芯片設計,充分發揮比較優勢,分散了GPU設計和製造的風險,符合半導體分工的大趨勢。

英特爾、AMD奮起直追,欲三分天下

目前在全球GPU市場中主要的3個玩家:英偉達、AMD和英特爾。英偉達專注於GPU領域,由於此前不具備CPU業務,公司重心放在更高性能的獨立顯卡方向。AMD和英特爾由於自身有CPU業務,在2009年後兩家廠商都各自大力發展內置於CPU的高性能集成式圖形處理內核。

瞄準了未來的市場需求,以及英偉達在獨顯市場的壟斷地位,英特爾、AMD奮起直追,想要三分天下。

由於英特爾在CPU市場的巨大市場優勢,帶動了集成顯卡的出貨。英特爾憑藉在CPU市場60%以上的市場份額,獲得了GPU市場份額上的領先地位。

英特爾是全球最大的PC GPU供應商,也是PC和服務器顯卡唯一的IDM廠商。英特爾的GPU最早可以追溯到1998年的i740,但是由於羸弱的性能和緩慢的更新速度,一直沒有非常大的起色。進入酷睿i時代後,英特爾通過將核芯顯卡和CPU進行捆綁銷售,利用CPU的龐大市場份額,確立了公司在集成GPU領域的寡頭壟斷地位。

英特爾核芯顯卡市佔率達到68.3%(圖源:JPR)

近日,英特爾CEO Pat Gelsinger在受訪中表示,目前獨顯市場幾乎由英偉達佔據,在許多顯示技術應用變得更偏重使用英偉達提供產品,使其變得過於專有,對於市場生態發展顯然不利。因此英特爾希望藉助接下來持續更新的oneAPI框架設計,讓開發者、硬件廠商能更容易統整CPU、GPU,乃至於以FPGA形式建構更具彈性的運算方式,解決編碼模型在不同微架構間的壁壘,最大化跨平臺表現和最小化開發成本,以一種對行業及其創新且更有利和開放的方式來實現更加友好的生態系統。

Gelsinger進一步說明了英特爾打算如何在GPU市場上提供有吸引力的產品,並談到他們將如何在英特爾平臺上實現從集成到分立的無縫過渡。他表示,英特爾聘請了AMD前頂級GPU架構師Vineet Goel來監督GPU產品基於的Xe GPU架構,負責“架構、設計和驗證英特爾的Xe IP路線圖”。

Xe GPU架構是2020年英特爾在其架構日中首次推出的,Xe微架構可以滿足從集成/入門圖形需求到數據中心和高性能計算的需求,Xe的推出標誌着英特爾向高性能獨立顯卡領域的擴張。

Xe系列可以細分爲集成/低功耗的Xe-LP、娛樂/遊戲的Xe-HPG、數據中心/高性能的Xe-HP、高性能計算的Xe-HPC。英特爾獨立GPU分爲銳炬Xe MAX和服務器GPU,均隸屬於Xe LP系列,微架構與核顯Xe相同,採用標準封裝和10nm SuperFin製程。

目前,Xe-LP的集成版本已經被第11代酷睿所採用。Xe-LP的移動獨立GPU版本DG1和服務器獨立GPU版本SG1也已發佈。未來,英特爾還將推出面向遊戲和高性能桌面的Xe HPG產品線,增加光線追蹤等硬件支持,採用傳統封裝,外包生產。英特爾服務器GPU將使用Xe HPC、Xe HP微架構,採用2.5D和3D先進封裝,10nm SuperFin及更先進自家或外包工藝。

根據Pat Gelsinger的說法,強調本身在CPU設計本質上的優勢,加上目前持續在GPU產品設計上精進,配合oneAPI框架設計,藉此針對不同運算需求搭配最佳組合。相比英偉達將主力放在GPU產品設計,英特爾在產品設計將能統籌更多運算應用資源,能以相對更低價格取得,預期能帶動更大的規模和使用效益。

從英特爾即將推出的 Xe-HPG 顯卡背後的期待來看,英特爾有了一個好的開端。至於與AMD的鬥爭,Gelsinger認爲,英特爾即將推出的Alder Lake和Sapphire Rapids將有可能終結對手近年來的成功。

AMD是全球唯一可以同時提供高性能GPU和CPU的企業,且能夠同時提供獨立GPU和集成GPU,其集成GPU主要運用在Ryzen APU、嵌入式、半定製平臺中。獨立GPU分爲Radeon和Instinct系列,主要用於遊戲、專業視覺、服務器等應用。

筆者曾在文章《芯片巨頭的瘋狂五年》一文中,描述了AMD近年來的勢不可擋之勢。“去年,除了Ryzen 5000系CPU的發佈,AMD還發布了再次震驚世界的Radeon 6000系列GPU,性能摸到了RTX 3090的水準,可以說一舉追平了跟英偉達多年的差距。2019年以來,RDNA架構顯卡的成功試水,使得連續三年業績飄紅的AMD在原有市值基礎上繼續大幅上漲,2022年前,AMD將基於更先進的製程打造RDNA3微架構,進一步強化光追等計算表現。”

過去六年,AMD的計算和圖形收入的營收由18.05億美元上升至64.32億美元,年複合增速29%。未來五年,AMD計劃成爲高性能計算的領導者,提供顛覆性的CPU和GPU方案。

從Mercury Research的數據可以看到,經過長達六年的重返數據中心的爭奪戰,到2021年第一季度,AMD的X86處理器在數據中心的銷售份額達到了11.5%,並且制定了可靠的路線圖,以應對不斷壯大且正在復甦的英特爾的競爭。同時,這對於更願意組合GPU和CPU的優勢互相促進產品銷量的AMD來講,無疑也將給英偉達帶來一定程度上的衝擊。

綜合來看,全球GPU已經進入了寡頭壟斷的格局。在傳統GPU市場中,排名前三的英偉達、AMD、英特爾的營收幾乎可以代表整個GPU行業的收入。

來源:JPR、海豚投研

獨立顯卡領域主要由英偉達和AMD控制,而集成顯卡領域由英特爾和AMD掌控。就整個GPU市場而言,英特爾在覈心GPU上獲得桂冠,市場份額爲68%,英偉達和AMD爲15%上下。

對於英偉達來說,主要對手就是英特爾和AMD,雖然英偉達的獨立GPU全球第一,但是其並不具備CPU設計能力,相反AMD一直以來都是CPU和GPU同步發展,而且都還做得不錯,專注於CPU的英特爾也開始計劃搞獨立GPU了,而且英特爾除了X86之外,還押寶了RISC-V,都在針對CPU和GPU同時佈局。

因此,押寶Arm成了英偉達一個非常好且不容錯過的機會,此舉可以讓英偉達具備CPU設計能力,也可以做到CPU和GPU同時發展,甚至未來還能和X86展開競爭。可以預見,如果Arm的收購能成功,英偉達將會更加強大。

中國市場的X因素

全球GPU市場表現爲寡頭壟斷下的高增長,年複合增速超過30%,主要市場份額被英偉達、英特爾、AMD等美系企業佔領。在此宏觀背景下,國產GPU企業蓬勃發展,在GPU軟硬件方面同時出擊。

國產GPU的發展落後於國產CPU,在國產GPU的開發中,GPU對CPU的依賴性和GPU的高研發難度,阻礙了該產業的快速發展。直到2014年,長沙景嘉微才成功研發出了國內首款國產高性能、低功耗GPU芯片——JM5400,打破了國外產品長期壟斷我國GPU市場的局面。

中國GPU市場規模和潛力非常大,龐大的整機制造能力意味着巨量的GPU需求。另外,國內在物聯網、車聯網、人工智能等新興計算領域,對GPU也存在海量需求。據IDC預測,2024年中國GPU服務器市場規模將達到64億美元,市場空間巨大。

有觀點表示,AI技術的爆發和信創產業的起步給國產GPU帶來了真正的發展機遇。

GPU在並行計算、浮點以及矩陣運算方面具有強大的性能,逐漸在高性能計算、雲端AI應用等場景中處於主導地位。雖然英偉達在這個領域佔據主導地位,由於其產品價格昂貴,且國內對產業鏈安全的考量,國產通用GPU有着廣闊的成長空間。同樣,由於信創產業的發展,國內的桌面GPU也得到了難得的發展機遇。

在圖形GPU領域,還是以景嘉微、航錦科技等爲代表的傳統企業爲主力。另外,國內從事CPU研發的企業(如兆芯、龍芯等),也開始切入這個賽道,增強了國內GPU企業的整體研發實力。以國產替代爲核心驅動力,在政策指引和充足資金保障下,整個信創產業將爲國產GPU帶來巨大的市場空間,遠超以往的軍用等專業市場。

雖然國產GPU與主流廠商的差距仍很大,但是GPU國產化的道路仍在持續推進。2021年,景嘉微的JM9系列芯片流片、封裝順利。雖然比此前的量產計劃晚了1-2年,但產品研發量產工作仍在穩步推進。JM9系列產品對標英偉達的GTX1080。雖然按之前JM7系列情況看,在使用上可能出現效果打折的情況,但比上一代產品有望實現較大的提升。

國內GPU廠商和產品不完全統計:

國內GPU廠商不完全統計(如有遺漏,歡迎補充)

當前,國產GPU已經能完成日常辦公等基本的任務需求,有望先從軍工領域拓展至國內政企辦公領域,但是在性能和使用效果方面的差距還是難以打開民用市場。

GPU的使用效果主要受到硬件和驅動兩方面的影響。從國產GPU的發展情況看,硬件端的追趕較容易實現,工藝製程、顯存位寬、顯存大小、時鐘頻率和顯存頻率等GPU的外在指標,可以通過逆向開發較快實現。但即使在相同的硬件情況下,GPU驅動也將明顯影響使用效果,之前AMD顯卡出問題也大多是驅動造成的。因此,對於國產GPU在驅動方面需要更長的時間去追趕。

GPGPU蔚然成風

2018年6月,圖靈獎獲得者John Hennessy 和 David Patterson發表了《計算機架構新的黃金時代》的主題演講,提出了特定領域架構(DSA)的概念,旨在爲計算機架構帶來創新並努力邁向新的黃金時代。

顧名思義,GPU就是用於3D圖形領域的DSA,其目標是在3D虛擬世界中渲染照片般逼真的圖像。過去20多年裡,GPU的基本需求就源於視頻加速,2D/3D遊戲,圖像渲染。

然而,除了3D用途之外,幾乎所有人工智能研究人員都使用GPU來探索超越3D圖形領域的概念。GPU運用自身在並行處理和通用計算的優勢,逐步開拓服務器、汽車、礦機、人工智能、邊緣計算等領域的衍生需求。雖然GPU無法離開CPU獨立運作,但是在當前“雲化”加速的時代,離開了GPU的CPU也無法勝任龐大的計算需求。所以GPU和CPU組成了異構運算體系,從底層經由系統軟件和驅動層支持着上層的各種應用。GPU已經成爲了專用計算時代的剛需。

我們將這種設計理念稱爲通用GPU,即GPGPU,是一種利用GPU處理圖形渲染之外通用計算任務的高性能芯片。近年來,在摩爾定律演進的放緩和GPU在通用計算領域的高速發展的此消彼長之下,通用圖形處理器(GPGPU)逐漸“反客爲主”,利用GPU來計算原本由CPU處理的通用計算任務。

在GPGPU領域,目前各個GPU廠商的GPGPU的實現方法不盡相同,如英偉達使用的CUDA技術、原ATI的ATI Stream技術、Open CL聯盟、微軟的Directcompute技術。這些技術可以讓GPU在媒體編碼加速、視頻補幀與畫面優化、人工智能與深度學習、科研領域、超級計算機等方面發揮異構加速的優勢。

以上幾種技術中,只有OpenCL支持跨平臺和開放標註的特性,還可以使用專門的可編程電路來加速計算,業界支持非常廣泛。但是,從市佔率角度來看,英偉達無疑是行業的標杆,其不僅擁有百萬開發者支持的CUDA,還在指令集的覆蓋面、顆粒度、效率等維度有領先優勢,早早憑藉強大的GPU+CUDA方案切入深度學習領域,用大筆研發投入和時間堆積起堅不可摧的生態城牆,鮮有能與其相提並論的玩家。

在2021年以前,中國企業雖然在一些專用芯片領域多有突破,但在GPGPU領域仍是空白。再考慮到產業生態,國產GPGPU替代還有很長的路要走。以中國的雲端AI訓練芯片市場爲例,最大的供應商爲國外廠商,其市場份額達90%。

今年以來,壁仞科技、登臨科技、天數智芯等本土廠商在GPGPU市場英偉達一家獨大的背景下,相繼進行流片量產,正在努力改變現況。除此之外,若想真正實現自主可控,GPGPU創企們還需在CUDA生態的基礎上來推廣自己的芯片,隨着初代國產芯片陸續順利落地,打造完整的國產核心技術生態體系也將是必經之路。

因其強大的並行處理能力和存儲帶寬,GPGPU在人工智能市場和高性能市場有廣闊的應用空間。有數據預計,到2025年,我國GPGPU芯片板卡的市場規模將達458億元,2019年到2025年的年複合增長率將高達32%。按行業來分,互聯網及雲數據中心爲228億元,安防與政府數據中心爲142億元,行業AI應用爲37億元,高性能計算爲28億元。

由此可見,從預期市場和國產替代的緊迫性來講,GPGPU擁有大好前景,一旦突破國際巨頭在“硬件+生態”層面的壁壘,本土企業的前景將十分美好。

寫在最後

從GPU行業廠商的動態和佈局來看,戰火已經燃起,都在謀劃着自己的保衛或突擊之戰。國產GPU廠商的興起,將給行業帶來新的不確定因素,機遇和挑戰同樣巨大。

最後,引用AI芯天下的觀點,談談國內GPU行業要克服的“幾座大山”:

(1)產品方面。與英偉達等國際巨頭相比,國內GPU尚屬於起步階段。在圖形GPU方面,國內領先的景嘉微公司,其最新產品也只相當於英偉達幾年前的產品水平。未來更多高清3D應用的出現將帶來GPU需求的持續增長,對GPU處理能力也是一項不小的挑戰,持續改進GPU系統架構和設計方法,提高運算能力和綜合顯示能力,以應對新形勢提出的發展要求。

(2)專利方面。數據顯示,全球GPU技術領域專利數量排名前20的公司佔有全球70%的GPU專利。英偉達,英特爾和AMD還是GPU技術領域全球專利家族持有數量排名的前三。其中,英偉達持有專利數量佔全球總量的近20%。所謂得專利者得天下,本土廠商需要在此發力,構建出可靠的護城河。

(3)在圖形領域,GPU對於CPU和操作系統的依附性很強。在GPGPU領域,CUDA生態是國內企業必須要翻越的一座大山。當前的AI開發工程師,多數是在CUDA平臺上進行開發的。因此,即使有國產GPU芯片可以實現替代,但要開發者實現遷移則是一項更爲艱鉅的工作。

(4)近些年,國外GPU技術快速發展,已經大大超出了其傳統功能的範疇。國內GPU芯片的研製雖然可滿足目前大多數圖形應用需求,但在科學計算、人工智能及新型的圖形渲染技術方面仍然和國外領先水平存在較大差距,未來持續發展國產GPU勢在必行。