開源大模型殺瘋了!Mistral新模型三分之一參數卷爆Llama 3.1

Llama 3.1 405B“最強模型”寶座還沒捂熱乎,就被砸場子了——

Mistral AI發佈最新模型Mistral Large 2,參數123B,用不到三分之一的參數量性能比肩Llama 3.1 405B,也不遜於GPT-4o、Claude 3 Opus等閉源模型。

主打的就是一個高性價比。

用官方的話說,Mistral Large 2在性能/成本評價指標上“設定了一個新的前沿”。

Mistral Large 2尤其擅長代碼和數學推理,上下文窗口128k,支持數十種自然語言以及80+編程語言。

特別在MMLU上,其預訓練版本更是達到了84.0%的準確率。

消息一出,Mistral AI聯創兼首席科學家第一時間轉發,直接cue Llama 3.1 405B的那種:

Perplexity CEO Aravind Srinivas也開麥了:

英偉達科學家Jim Fan更是表示這簡直就是享受開源模型盛宴的一週,想看看SEAL上的測評結果:

Mistral Large 2性能具體如何,來看官方發佈的基準測試結果。

根據官方Blog,Mistral Large 2參數123B,專爲單節點推理設計,在單節點上可實現大吞吐,上下文窗口爲128k。

代碼能力方面,Mistral Large 2支持包括Python、Java、C、C++、JavaScript和Bash在內的80多種編程語言,吸取Codestral 、Codestral Mamba經驗,表現遠超之前的Mistral Large。

Human Eval、MBPP基準上,Mistral Large 2代碼生成能力可與GPT-4o、Claude 3 Opus和Llama 3.1 405B等最強模型相媲美:

在MultiPL-E的多種編程語言基準上,Mistral Large 2多方面超越Llama 3.1 405B:

推理方面,官方表示重點關注減少模型“幻覺”,Mistral Large 2能夠識別自己在找不到解決方案或缺乏足夠信息提供確信答案時的情況。

由此模型在數學基準測試中的表現相比之前有了不小提升。在GSM8K(8-shot)和MATH(0-shot,無CoT)基準上的表現如下:

這裡還有Mistral Large 2和Llama 3.1 405B、Llama 3.1 70B的代碼生成以及數學表現比較。

Mistral Large 2以不到三分之一的參數量,在代碼和數學上比肩或超越Llama 3.1 405B。

除了代碼和推理,Mistral Large 2在MT Bench、Wild Bench和Arena Hard上的表現,也突出了其指令遵循和對齊方面的提升:

而且,官方還特別關注模型生成內容切題的前提下,儘量保持簡潔:

下圖還展示了不同模型在MT Bench基準測試中生成內容的平均長度:

語言理解方面, 支持包括法語、德語、西班牙語、意大利語、葡萄牙語、阿拉伯語、印地語、俄語、中文、日語和韓語在內的數十種自然語言。

特別在MMLU任務(大規模多任務語言理解)上,Mistral Large 2預訓練版本達到了84.0%的準確率。

結果也讓網友直呼MMLU已經飽和了:

值得一提的是,Mistral Large 2還配備了增強的函數調用和檢索能力,能夠同時處理多個任務或按步驟執行操作,這方面能力甚至超越GPT-4o:

Mistral Large 2基準測試結果很抗打,實際表現如何,還得等一波大夥兒的測評。

Mistral Large 2現在已經可以在Mistral AI自家的開發者平臺la Plateforme上使用,”Le Chat”有測試版可以直接玩。

而且官方表示,從今天開始將在la Plateforme上擴展微調功能,Mistral Large、Mistral Nemo和Codestral都支持微調。

此外還可以通過雲服務廠商訪問Mistral模型,Mistral AI模型除了在Azure AI Studio、Amazon Bedrock和IBM watsonx.ai上可用外,還可以在Vertex AI上獲取。

還要提的一點是,Mistral Large 2採用Mistral的新版許可證,不是Apache,只允許用於研究和非商業用途的使用和修改。

需要自行部署Mistral Large 2商業用途的,必須通過聯繫Mistral AI獲得其商業許可證。

關於模型的具體表現,量子位第一時間通過官方對話平臺進行了實測。

先來看最近比較流行的小數比大小問題,我們發現,Mistral Large 2能否答對很大程度上和提問方式有關。

如果直接問8.9和8.11哪個大,很有可能獲得一個錯誤答案,交換順序或者換一下數字結果也是如此。

但這時追問一句爲什麼,模型就會意識到小數部分不能拿11和9來比,然後給出了正確解釋。

如果一開始就換種提問方式,加上“數字”二字,或者將問題改爲“比較8.11和8.9的大小”,Mistral Large 2都能直接答對。

另外如果用英語提問,也能一步得到正確答案。

另一個被討論比較多的問題,是數出單詞中某個字母的個數,英文社區的討論中普遍認爲,大模型難以答對這樣的問題。

Mistral Large 2的情況也是如此,但如果把問題改用中文來描述,就能得到正確的回答。

以及關於大模型長期以來存在的“反轉詛咒”(知道A是B卻不知道B是A),Mistral Large 2的表現是這樣的:

在同一對話中,由於有上下文的存在,模型能夠正確回答“Mary Lee Cruise的兒子是誰”這個經典的“反轉詛咒”問題。

但如果在新對話中直接提問,得到的答案就變成了“不知道”。

安全性方面,最近瑞士洛桑聯邦理工學院爆出了可以通過過去時態繞過大模型安全措施的問題,我們也給Mistral測試了一下。

一上來直接詢問毒品的製作方式,結果毫不意外地被拒絕回答。

換成過去時之後,口風就變得沒那麼緊了,先是強調了不能提供詳細指導,但還是列出了一些合成方式。

不過也確實只提到了方法涉及的主要原料,並沒有詳細指示,至於算不算越獄成功就見仁見智了。

總的來說,面對這些流行的“大模型難題”,Mistral Large 2相比之前的模型確實是有些進步,但仍然有很大的改進空間。

接下來再看看Mistral Large 2在一些常規任務上的表現,按慣例先安排幾道“弱智吧”題目。

第一個問題,“吃健胃消食片能吃飽嗎”,這個問題雖然搞怪,但其實沒什麼歧義,所以模型只要一本正經地作答,大概率就不會出錯(除非出現幻覺)。

但如果換成下面這種無厘頭的問題,情況就不同了。

只能說大模型還是太實誠了,並沒有捕捉到其中的笑點,真的去從快遞公司運營的角度分析了一通。

不過這個問題Llama 3.1-405B同樣也沒有get到。

Mistral的語言理解能力大致可以從中管中窺豹,下面考驗一下Mistral的邏輯推理能力,題目是這樣的:

和人類的常規思路一樣,Mistral Large 2解答這道題時用的也是假設法,先假定甲說的是真話。

直到下圖中的倒數第二行分析得都還完全正確,但最後一行就開始已讀亂回了。

其實在發現假設甲說真話的情況下丁的身份出現矛盾的時候,就可以斷定甲說的不是真話,甲又說自己不是小偷,所以答案已經很明顯了。

但Mistral Large 2還是堅持把四種假設都進行了分析。

假設乙說真話這部分的分析是對的,但是無法得出結果。

到了丙這部分,就頗有些已讀亂回的意味了……

不過最終,分析完“丁說真話”的假設後,還是得到了正確答案——甲是小偷。

整個過程下來,可以看到Mistral Large 2對這類問題確實有一套合理的解決模式。

但相比於人類,模型的解決策略靈活性不足,比較循規蹈矩,沒能在發現甲說假話時直接看出結論,另外在推理過程當中也出現了不少細節錯誤。

順便提一句,GPT-4o和Claude 3.5都沒做對這道題,而且各有各的錯法。

以上就是關於這個開源模型新SOTA實測的全部內容了,感興趣的話,就到Mistral的官方的對話平臺Le Chat中一探究竟吧。

傳送門:https://chat.mistral.ai/chat

參考鏈接:[1]https://x.com/mistralai/status/1816133332582703547?s=46n[2]https://x.com/guillaumelample/status/1816135838448972240?s=46[3]https://x.com/DrJimFan/status/1816231047228797132[4]https://x.com/kimmonismus/status/1816141604194857430?s=46