智源最新模型評測:百度文心大模型4.0登頂閉源榜
北京商報訊(記者 魏蔚)6月18日,北京商報記者獲悉,北京智源研究院打造的FlagEval天秤大模型評測平臺實現了全面升級,並公佈202406期FlagEval模型評測排行榜單。最新一期榜單顯示,百度文心大模型4.0以89.72的綜合評分在閉源對話模型中排名第一,
FlagEval天秤大模型評測平臺是智源研究院推出的科學、權威、公正、開放的大模型評測體系,自2023年發佈以來,已從主要面向語言模型擴展到視頻、語音、多模態模型,實現多領域全覆蓋,目前已評測國內外 300 餘個開源和商業閉源的語言及多模態大模型。資料顯示,FlagEval大語言模型評測體系當前包含6大評測任務,近30個評測數據集,超10萬道評測題目。
相關資訊
- ▣ 百度 發表文心大模型4.0
- ▣ 百度李彥宏:開源模型是智商稅,閉源模型更強大、推理成本更低
- ▣ 百度宣佈文心智能體平臺免費開放文心大模型4.0
- ▣ 百度CEO李彥宏:大模型沒有應用,光有基礎模型,不管是開源還是閉源都一文不值
- 對標「GPT-4」 百度正式推出文心大模型4.0
- ▣ 大模型融合!最新「進化算法」全自動組合開源模型,刷榜多項基準測試
- ▣ 李彥宏重申文心大模型不開源:閉源模型能力會持續領先丨GAI進化論⑨
- ▣ 李彥宏:“百模大戰”是資源浪費,商業化的閉源模型纔是最能打的
- ▣ 全球140+大模型全方位評測結果出爐,智源評測體系發佈
- ▣ 百度副總裁:文心大模型4.0 Turbo面向企業開放,系列模型繼續降價
- ▣ AI早知道|智譜開源CogVLM2;百度文心大模型 ENIRE Speed、ENIRE Lite全面免費
- ▣ 傅盛:付費的閉源大模型纔是智商稅
- ▣ 快訊丨開源大模型社區HuggingFace公佈大模型排行榜
- ▣ 百川智能開源最新商用大模型!王小川:比LLaMA更香
- ▣ 智源發佈智源評測體系 國內外“百模”評估結果出爐
- ▣ 長江證券:開源模型性能追趕閉源大模型 OpenAI正式進軍AI搜索
- ▣ 大模型權威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區別對待
- ▣ 李彥宏:大模型開源意義不大 閉源才能走通商業模式
- ▣ 百度李彥宏:文心大模型4.0在中文上已經超過了GPT-4
- ▣ 百度宣佈文心大模型兩大主力模型全面免費
- ▣ 百度發佈文心大模型4.0 Turbo,多端面向用戶正式開放
- ▣ 智譜開源清影CogVideoX模型
- ▣ 斯坦福大模型評測榜:Claude 3第一
- ▣ 對話智源林詠華:有些大模型的評測基準已經失去意義
- ▣ 李彥宏最新內部講話:開源大模型不如閉源,後者會持續領先
- ▣ 拒絕刷題刷榜,智源研究院測了下140多個大模型的真實水平
- ▣ 數智早參|OpenAI官宣推出新的大語言模型GPT-4o;騰訊混元文生圖大模型開源
- ▣ Llama 3王者歸來,可與GPT-4分庭抗禮,開源模型即將追上閉源模型了?
- 智源大會開幕,全球最大智能模型“悟道2.0”發佈