業內:過去數月老款AI芯片降價,大模型培訓成本降60%

1月24日消息,衆所周知,開發大語言模型(LLM)成本高昂。這不僅包括模型本身的研發,還有在雲端運行這些模型的費用。以人工智能初創公司Anthropic爲例,雲端運行模型的成本幾乎佔了該公司上個月收入的一半以上,這還未算上訓練模型的成本。

然而,最近的技術進步有望降低大語言模型的開發和運行成本。目前尚不清楚這是否足以將大語言模型開發轉變爲高利潤的軟件業務,但它應該有助於緩解許多最緊迫的成本問題。

以Writer爲例,這家初創公司專門爲企業開發人工智能工具。該公司聯合創始人兼首席技術官瓦西姆·阿爾謝赫(Waseem Alshikh)表示,過去三到四個月,一些老式人工智能芯片(如英偉達A100 GPU)的價格不斷下滑,幫助他們將模型培訓成本降低了約60%。此外,英偉達還優化了軟件性能,幫助開發者在這些芯片上更快地訓練和運行大型模型。

但與此同時,隨着雲計算服務提供商推出更多H100芯片,Writer開始使用更多英偉達新款芯片來訓練大語言模型。阿爾謝赫指出,這些較新的芯片價格高昂,但在模型訓練方面比A100更快。

開發者還利用各種新的培訓技術和配置來降低成本。像GPT-4這樣的大型語言模型實際上是由多個“專家”模型組成的,而非一個龐大的模型,每個模型專攻不同主題。這種混合專家系統(Mixture of Experts,簡稱MoE或ME)的計算效率更高,因爲查詢僅觸發模型的某些部分,而非整個模型。

其他技術,如量化和大語言模型的低階自適應,使得訓練和調整模型的成本更低,且對模型性能影響微乎其微。

大語言模型開發者還找到了更高效利用硬件的方法。谷歌研究人員估計,在訓練GPT-3時,OpenAI的GPU大約有80%的時間處於閒置狀態,等待數據輸入。換句話說,它並未充分利用GPU資源。然而,GPU經銷商Together的首席科學家特里·道(Tri Dao)表示,通過採用名爲FlashAttention-2的不同技術,可將閒置時間縮短至30%左右。衆多開發者已開始利用這項技術,包括法國人工智能初創公司Mistral。

儘管人工智能開發人員擁有衆多降低成本的工具,但並不意味着他們會全都使用。OpenAI、Anthropic等前沿模型的開發商追求卓越的芯片、人才和數據資源,因此他們可能會暫時擱置利潤率目標。

例如,Facebook母公司Meta首席執行官馬克·扎克伯格(Mark Zuckerberg)宣佈,該公司計劃在今年年底前獲得3.5萬個H100 GPU(總成本超過70億美元)。這表明,實力雄厚的公司正不惜重金購買尖端芯片,即便老款GPU價格更爲親民。

此外,我們切勿忽視獲取新數據以訓練大語言模型的成本。像OpenAI和蘋果等公司從出版商那裡獲得內容授權的費用看似微不足道,但未來可能會大幅增長。儘管大語言模型正逐步生成用於新模型的“合成”訓練數據,但仍有許多高質量信息是它們無法複製的。(小小)