☰

Meta打造全球最大GPU集羣，超過100000 個H100

如果您希望可以時常見面，歡迎標星收藏哦~

來源：內容綜合自wired，謝謝。

本週早些時候，馬克·扎克伯格在 Meta 財報電話會議上表示，該公司正在“一個比 100,000 個 H100 AI GPU 更大的集羣上訓練 Llama 4 模型，或者比我見過的其他人正在做的任何報道都要大”。

雖然這位 Facebook 創始人沒有透露 Llama 4 可以做什麼，但《連線》雜誌援引扎克伯格的話稱，Llama 4 具有“新模式”、“更強的推理能力”和“更快的速度”。這是一個至關重要的發展，因爲 Meta 正在與微軟、谷歌和馬斯克的 xAI等其他科技巨頭競爭，以開發下一代人工智能 LLM。

Meta 並不是第一家擁有配備 10 萬塊 Nvidia H100 GPU 的 AI 訓練集羣的公司。埃隆·馬斯克 (Elon Musk)於 7 月下旬啓動了一個類似規模的集羣，稱其爲“計算超級工廠”，並計劃將其規模翻倍至 20 萬塊 AI GPU。然而，Meta 今年早些時候表示，預計到 2024 年底將擁有超過 50 萬塊 H100 等效 AI GPU，因此它可能已經擁有大量用於訓練 Llama 4 的 AI GPU。

Meta 的 Llama 4 採用了一種獨特的方法來開發 AI，因爲它完全免費發佈其 Llama 模型，允許其他研究人員、公司和組織在此基礎上進行構建。這不同於 OpenAI 的 GPT-4o 和谷歌的 Gemini 等其他模型，這些模型只能通過 API 訪問。然而，該公司仍然對 Llama 的許可證施加了限制，例如限制其商業用途，並且不提供任何有關其訓練方式的信息。儘管如此，它的“開源”性質可能有助於它主宰 AI 的未來——我們已經看到了這一點，中國基於開源代碼構建的 AI 模型可以在基準測試中與 GPT-4o 和 Llama-3 相媲美。

所有這些計算能力都帶來了巨大的電力需求，尤其是單個現代 AI GPU每年最多會消耗 3.7MWh 的電力。這意味着 100,000 個 AI GPU 集羣每年將至少消耗 370GWh 的電力——足以爲超過 3400 萬個普通美國家庭供電。這引發了人們對這些公司如何找到如此龐大的供應的擔憂，尤其是引入新的電源需要時間。畢竟，就連扎克伯格本人也表示，電力限制將限制人工智能的發展。

例如，埃隆·馬斯克使用了幾臺大型移動發電機爲位於孟菲斯的 10 萬臺計算機供電。谷歌的碳排放目標一直落後，自 2019 年以來其溫室氣體排放量增加了48%。甚至前谷歌首席執行官也建議我們應該放棄氣候目標，讓人工智能公司全力以赴，然後利用我們開發的人工智能技術來解決氣候危機。

然而，當一位分析師問 Meta 公司如何爲如此龐大的計算集羣供電時，Meta 高管迴避了這個問題。另一方面，Meta 的人工智能競爭對手，如微軟、谷歌、甲骨文和亞馬遜，正在加入核能潮流。他們要麼投資小型模塊化反應堆，要麼重啓舊核電站，以確保他們有足夠的電力來支持未來的發展。

雖然這些需要時間來開發和部署，但爲人工智能數據中心提供小型核電站將有助於減輕這些耗電集羣對國家電網的負擔。

“比任何東西都大”的 GPU 集羣

Meta 首席執行官馬克·扎克伯格週三奠定了生成式 AI 訓練的最新標誌，他表示，該公司 Llama 模型的下一個主要版本將在一組“比以往任何報道過的都大”的 GPU 上進行訓練。

扎克伯格在財報電話會議上告訴投資者和分析師，Llama 4 的開發進展順利，預計將於明年初首次推出。“我們正在一個比 100,000 個 H100 更大的集羣上訓練 Llama 4 模型，或者說，比我所見過的其他人正在做的任何事都要大，”扎克伯格說，他指的是用於訓練 AI 系統的流行 Nvidia 芯片。“我預計較小的 Llama 4 模型將首先準備就緒。”

人們普遍認爲，通過增加計算能力和數據來擴大 AI 訓練規模是開發更強大的 AI 模型的關鍵。雖然 Meta 目前似乎處於領先地位，但該領域的大多數大公司可能都在努力使用擁有超過 100,000 個先進芯片的計算集羣。今年 3 月，Meta 和 Nvidia分享了用於開發Llama 3的約 25,000 個 H100集羣的詳細信息。7 月，埃隆·馬斯克 (Elon Musk)吹噓他的 xAI 合資企業已與 X 和 Nvidia 合作建立了 100,000 個 H100。“這是世界上最強大的 AI 訓練集羣！”馬斯克當時在 X 上寫道。

週三，扎克伯格拒絕透露有關 Llama 4 潛在先進功能的細節，但含糊地提到了“新模式”、“更強的推理能力”和“速度更快”。

Meta 的 AI 方法在企業爭奪主導地位的競爭中被證明是一張萬能牌。Llama 模型可以免費下載，而 OpenAI、谷歌和大多數其他大公司開發的模型只能通過 API 訪問。事實證明，Llama 非常受希望完全控制其模型、數據和計算成本的初創公司和研究人員的歡迎。

儘管 Meta 宣稱 Llama 是“開源”的，但 Llama 許可證確實對該模型的商業用途施加了一些限制。Meta 也沒有披露模型訓練的細節，這限制了外部人員探究其工作原理的能力。該公司於 2023 年 7 月發佈了 Llama 的第一個版本，並於今年 9 月推出了最新版本 Llama 3.2 。

管理如此龐大的芯片陣列來開發 Llama 4 可能會帶來獨特的工程挑戰，並需要大量能源。Meta 高管週三迴避了分析師關於美國部分地區能源獲取限制的問題，這些問題阻礙了公司開發更強大的人工智能的努力。

據估計，10 萬塊 H100 芯片組成的集羣需要 150 兆瓦的電力。相比之下，美國最大的國家實驗室超級計算機El Capitan需要 30 兆瓦的電力。Meta 預計今年將花費高達 400 億美元的資金來裝備數據中心和其他基礎設施，比 2023 年增長 42% 以上。該公司預計明年的支出將進一步大幅增長。

Meta 今年的總運營成本增長了約 9%。但整體銷售額（主要來自廣告）增長了 22% 以上，儘管該公司爲 Llama 項目投入了數十億美元，但利潤率和利潤額仍然更高。

與此同時，目前被認爲是尖端人工智能開發領軍者的 OpenAI 儘管向開發者收取了使用其模型的費用，但仍在燒錢。目前仍是一家非營利性企業，該公司表示正在訓練 GPT-5，這是目前支持 ChatGPT 的模型的後繼者。OpenAI 表示，GPT-5 將比其前身更大，但並未透露用於訓練的計算機集羣。OpenAI 還表示，除了規模之外，GPT-5 還將融入其他創新，包括最近開發的一種推理方法。

首席執行官 Sam Altman表示，與前代產品相比，GPT-5 將“實現重大飛躍”。上週，Altman 在 X 上回應了一篇新聞報道，稱 OpenAI 的下一個前沿模型將於 12 月發佈， “假新聞失控了”。

谷歌首席執行官桑達爾·皮查伊 (Sundar Pichai) 週二表示，該公司Gemini 系列生成式 AI 模型的最新版本正在開發中。

Meta 對 AI 的開放態度有時會引起爭議。一些 AI 專家擔心，免費提供功能強大得多的 AI 模型可能會很危險，因爲它可能幫助犯罪分子發動網絡攻擊或自動設計化學或生物武器。儘管 Llama 在發佈之前經過了微調以限制不當行爲，但取消這些限制相對來說並不困難。

儘管谷歌和 OpenAI 都在推廣專有系統，扎克伯格仍然對開源戰略持樂觀態度。“在我看來，開源將是最具成本效益、可定製性、最值得信賴、性能最高、最易於使用的開發者選項，”他週三表示。“我很自豪 Llama 在這方面處於領先地位。”

扎克伯格補充說，Llama 4 的新功能應該能夠爲 Meta 服務的更多功能提供支持。如今，基於 Llama 模型的標誌性產品是類似 ChatGPT 的聊天機器人 Meta AI，可在 Facebook、Instagram、WhatsApp 和其他應用程序中使用。

扎克伯格表示，每月有超過 5 億人使用 Meta AI。隨着時間的推移，Meta 預計將通過該功能中的廣告產生收入。Meta 首席財務官 Susan Li 在週三的電話會議上表示：“人們使用它的查詢範圍將不斷擴大，隨着我們實現這一目標，盈利機會將隨着時間的推移而存在。”有了廣告收入的潛力，Meta 或許能夠爲其他所有人提供 Llama 補貼。

https://www.wired.com/story/meta-llama-ai-gpu-training/

半導體精品公衆號推薦

專注半導體領域更多原創內容

關注全球半導體產業動向與趨勢

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅爲了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》爲您分享的第3933內容，歡迎關注。

『半導體第一垂直媒體』

實時專業原創深度

公衆號ID：icbank

喜歡我們的內容就點“在看”分享給小夥伴哦

Meta打造全球最大GPU集羣，超過100000 個H100

相關資訊