比英偉達(NVDA.US)GPU快20倍! Cerebras“出爐”全球最快AI推理解決方案

智通財經APP獲悉,人工智能初創公司Cerebras今日宣佈推出Cerebras Inference,據稱是世界上最快的人工智能推理解決方案。該公司表示:“Cerebras Inference爲Llama 3.18B每秒提供1800個token,爲Llama 3.170B每秒提供450個token,比基於英偉達(NVDA.US)GPU的超大規模雲快20倍。”

Cerebras Inference由第三代晶圓級引擎(WaferScaleEngine)提供動力,同時由於消除了內存帶寬障礙,速度更快。Cerebras稱其GPU解決方案的推理成本是微軟Azure雲計算平臺的三分之一,而使用的功率是微軟Azure雲計算平臺的六分之一。

該公司表示:“Cerebras通過製造世界上最大的芯片,並將整個模型存儲在芯片上,解決了內存帶寬瓶頸。”“憑藉我們獨特的晶圓級設計,我們能夠在單個芯片上集成44GB的SRAM,從而消除了對外部存儲器和連接外部存儲器和計算機的慢速通道的需求。”

提供人工智能模型獨立分析的人工智能分析公司(Artificial Analysis)聯合創始人兼首席執行官MicahHill-Smith表示:“Cerebras在人工智能推理基準方面處於領先地位。Cerebras爲Meta的Llama3.18B和70BAI模型提供的速度比基於GPU的解決方案快一個數量級。我們在Llama3.18B上測量的速度超過每秒1800個輸出token,在Llama3.170B上測量的速度超過每秒446個輸出token,這是這些基準測試中的新記錄。”

他稱,“憑藉推至性能前沿的速度和具有競爭力的價格,Cerebras Inference對具有實時或大容量需求的人工智能應用程序的開發人員特別有吸引力。”

值得一提的是,這可能會在整個人工智能生態系統中產生連鎖反應。隨着推理變得更快、更高效,開發人員將能夠突破人工智能的極限。曾經因硬件限制而受阻的應用程序現在可能會蓬勃發展,並激發出此前被判定爲不可能的創新。不過, J. Gold Associates 分析師傑克·戈爾德 (Jack Gold) 也提出,“但在我們獲得更具體的現實基準和大規模運營之前,現在估計它到底有多優越還爲時過早。”

本月早些時候,Cerebras提交了首次公開募股(IPO)申請,預計將於今年下半年上市。該公司最近還任命了兩名新的董事會成員:曾在IBM(IBM.US)、英特爾(INTC.US)和西班牙電信(TEF.US)擔任高管的格倫達•多查克;以及VMware和Proofpoint前首席財務官保羅·奧維爾(Paul Auvil)。

這家初創公司還向上市邁出了重要的一步,本月早些時候聘請鮑勃•科明(Bob Komin)擔任首席財務官。Komin曾在Sunrun擔任首席財務官,領導了該公司的IPO流程。他還曾在被雅虎收購的Flurry和被微軟(MSFT,US)收購的TellmeNetworks擔任CFO。

Cerebras首席執行官兼聯合創始人AndrewFeldman說,“鮑勃在他的職業生涯中一直是一個關鍵的運營領導者,在幾家公司擔任創業高管,這些公司發明了重大的技術和商業模式創新,並迅速成長爲行業領導者。他在成長期和上市公司的財務領導方面的豐富經驗對Cerebras來說是非常寶貴的。”