法國版OpenAI殺瘋了!1760億參數MoE登開源榜首,3張A100顯卡可跑,楊立昆轉發“逆天”評論

智東西(公衆號:zhidxcom)作者香草編輯李水青

智東西4月11日報道,昨日,“歐洲版OpenAI”Mistral AI又一次悄然秀肌肉,甩出全新MoE(專家混合)大模型Mixtral 8x22B磁力鏈接,模型參數規模高達1760億,僅次於馬斯克的Grok-1,成爲市面上參數規模第二大的開源模型。

▲Mistral AI發佈Mixtral 8x22B

Mixtral 8x22B由8個專家模型構成,每個模型的參數規模220億,模型文件大小約爲262GB。測評成績方面,Mixtral 8x22B在MMLU(大規模多任務語言理解)登頂開源模型榜首,Hellaswag、TruthfulQA、GSM8K等多項測評成績超越Llama 2 70B、GPT-3.5以及Claude 3 Sonnet。

這是近日繼OpenAI的視覺版GPT-4 Turbo和谷歌的Gemini 1.5 Pro全面更新後,大模型廠商們發佈的第三個重要型號。此外,Meta還暗示將在下個月發佈Llama 3。

一、問鼎MMLU開源榜首,3張A100顯卡可跑

Mixtral 8x22B包含8個專家模型,每個專家模型的參數規模從上一代的70億飆升至220億,序列長度爲65536。

在放出磁力鏈接後不久,Mixtral 8x22B便上架了開源社區Hugging Face,模型文件大小約爲262GB,用戶可以進一步訓練和部署。

性能方面,其在MMLU測評榜登頂開源模型榜首,多項測評成績超越Llama 2 70B、GPT-3.5以及Claude 3 Sonnet。

▲Mixtral 8x22B測評成績

雖然發佈方式低調,但Mixtral 8x22B再一次引爆了開源社區。AI搜索平臺Perplexity Labs和開源平臺Together AI都迅速提供了該模型的支持。

AI科學家賈揚清稱,通過合理的量化,Mixtral 8x22B可在4個A100/H100顯卡上運行,嚴格來說,其實3張A100顯卡就夠了。

▲賈揚清稱3張A100顯卡可以跑Mixtral 8x22B

蘋果機器學習研究員Awni Hannun稱,Mixtral 8x22B模型在蘋果機器學習框架MLX上使用M2 Ultra芯片運行良好,併發布了MLX社區中的4位量化模型。

▲蘋果機器學習框架MLX運行Mixtral 8x22B

二、楊立昆轉發,法國AI生態如此“逆天”

現如今,法國巴黎的AI生態已是“Next Level”。出身巴黎的Meta首席AI科學家楊立昆轉發了一篇講述巴黎是如何成爲一個主要AI中心的帖文,故事可以從10多年前說起。

▲楊立昆轉發Damien Henry帖文

2013年,Xavier Niel創辦了計算機培訓學校Ecole 42,這所不同尋常的學校接收來自不同背景的學生,以點對點學習的方式培訓編程。

2015年,楊立昆創辦了FAIR Paris,也就是FacebookAI研究院。他被公認爲深度學習的三大發明者之一,另外兩位是加拿大人。

FAIR向法國人才發出了一個信號:他們不必離開法國就可以從事深度學習研究;也向美國其他科技巨頭髮出信號:在法國進行科學研究是可行的。之後在2018年,谷歌DeepMind也在巴黎開設了一家實驗室。

2016年,第一屆VivaTech舉辦,它成爲歐盟首屈一指的初創企業和投資者盛會,吸引了超過2400家初創企業和超過2000名投資者。

同年,開源社區Hugging Face在法國成立。也許當時的他們不會知道,其Transformer庫不久之後就會成爲行業標準。

2017年,Xavier Niel成立了STATION F,這是世界上最大的創業園區。在Roxanne Varza的帶領下,它成爲了法國的科技中心。值得一提的是,Hugging Face是首批加入STATION F計劃的創企之一,也是該計劃誕生的首個獨角獸。

▲STATION F創業園區

2018年,楊立昆獲得圖靈獎,成爲AI領域最具影響力的人物之一。

▲楊立昆

在此期間,這篇帖文的作者Damien Henry在巴黎組建了Google Arts&Culture團隊,專注於AI和圖像。他還和其他兩位聯創共同創建了AI視覺生成工具Clipdrop,後被Stability AI收購。

2019年,巴黎已經在世界AI地圖上佔據一席之地,但並不像如今一樣成爲主流。

但在2020年,疫情席捲了全球,遠程辦公成爲常態。這讓科技界開始轉移陣地:世界上有這麼多地方可供選擇,我爲什麼非要在硅谷租房?此外,美國人開始逐漸把科技發展視爲一種威脅,而大多數科技沒那麼發達的國家則恰恰相反。

2021年,Hugging Face迅速增長,成爲如今我們熟知的最強開源AI平臺。深度科技在全球範圍內加速發展,而在巴黎尤爲迅速。

2023年Mistral AI成立,並在幾個月內就飛速成長爲OpenAI的最大勁敵之一。他們發佈模型的方式低調又“激進”,僅憑一條沒有任何背景信息磁力鏈接就獲得超400萬次瀏覽量,讓昂貴的發佈視頻變得過時。

同年,歐洲首個獨立AI研究實驗室kyutai成立,Scaleway、Rodolphe Saade等宣佈進入計算領域,要爲歐洲帶來更多GPU。計算機視覺國際頂級會議ICCV也選擇在巴黎舉辦,紅衫資本等頂級投資機構也越來越多地將目光放到法國AI創企。

結語:開源社區再添一員巨匠

隨着Mixtral 8x22B模型在開源社區中引起轟動,我們見證了開源大模型的迅猛發展和歐洲AI生態的崛起。這一成就不僅展示了Mistral AI在大模型領域的強大實力,也反映了法國乃至整個歐洲在AI研究和創新方面的深厚潛力。

從Ecole 42、FAIR Paris的成立,再到Hugging Face、STATION F的興起,巴黎已經成爲全球AI創新的重要中心。未來,我們期待看到更多硅谷之外的城市在全球AI舞臺上扮演重要角色,推動科技前沿創新。