Meta 用超 10 萬 Nvidia H100 GPU 訓 Llama-4
馬克·扎克伯格在本週早些時候的一次 Meta 收益電話會議上表示,該公司正在一個比 10 萬個H100AI 圖形處理器組成的集羣規模更大的集羣上訓練 Llama 4 模型。雖然這位 Facebook 創始人沒有給出關於 Llama 4 能做什麼的任何細節,《連線》援引扎克伯格的話稱,Llama 4 具有“新的模式”、“更強的推理能力”以及“快得多的速度”。這是一個關鍵的發展,因爲 Meta 要與其他科技巨頭如微軟、谷歌和馬斯克的 xAI 競爭,以開發下一代人工智能大型語言模型。
Meta 不是第一家擁有 10 萬個英偉達 H100 圖形處理器的人工智能訓練集羣的公司。埃隆·馬斯克於 7 月下旬啓動了一個規模類似的集羣,稱其爲‘計算的超級工廠’,並計劃將其規模擴大一倍至 20 萬個人工智能圖形處理器。然而,Meta 今年早些時候表示,預計到 2024 年底將擁有超過 50 萬個相當於 H100 的人工智能圖形處理器,所以它可能已經有大量的人工智能圖形處理器在運行以訓練 Llama 4。
Meta 的 Llama 4 在人工智能開發方面採取了獨特的方式,因爲它完全免費發佈其 Llama 模型,允許其他研究人員、公司和組織在此基礎上進行開發。這與 OpenAI 的 GPT-4o 和谷歌的 Gemini 等其他模型不同,這些模型只能通過 API 來進行訪問。然而,該公司仍然對 Llama 的許可證設置了限制,例如限制其商業用途,且不提供有關其訓練方式的任何信息。儘管如此,其“開源”的性質或許能助力它在人工智能的未來佔據主導地位——我們已經看到基於開源代碼構建的中國人工智能模型在基準測試中能夠與 GPT-4o 和 Llama-3 相媲美。
所有這些計算能力導致了巨大的電力需求,特別是單個現代 AI GPU 每年可能 消耗多達 370 萬千瓦時的電力。這意味着一個由 10 萬個 AI GPU 組成的集羣每年至少會使用 370 億瓦時——足以爲超過 3400 萬個美國家庭平均供電。這引發了人們對這些公司如何找到如此大量供應的擔憂,尤其是因爲新的電源上線需要時間。畢竟,就連扎克伯格本人也表示 電力限制將限制 AI 的發展。
例如,埃隆·馬斯克 使用了幾臺大型移動發電機 爲他位於孟菲斯的 10 萬臺強大的計算機供電。谷歌一直未達成其碳排放目標,自 2019 年以來其溫室氣體排放量增加了 48%。甚至谷歌前首席執行官都建議我們 放棄我們的氣候目標,讓人工智能公司全力發展,然後利用我們開發的人工智能技術來解決氣候危機。
然而,當一位分析師詢問 Meta 高管該公司如何能夠爲如此龐大的計算集羣供電時,他們避而不答。另一方面,Meta 的人工智能競爭對手,如微軟、谷歌、甲骨文和亞馬遜,正在跟風搞核能。他們要麼投資於小型模塊化反應堆,要麼重啓舊的核電站,以確保有足夠的電力來支撐其未來的發展。
雖然開發和部署這些需要時間,但給人工智能數據中心配備小型核電站將有助於減輕這些耗電的集羣給國家電網帶來的負擔。