谷歌再次稱霸!出自伯克利等華人學生項目,竟成世界170+模型競技場
新智元報道
編輯:好睏
【新智元導讀】當初,由UC伯克利、斯坦福、UCSD等高校華人學生髮起的AI擂臺,如今已經成爲了超過170款模型的大比競技場!全世界的初創公司和科技巨頭都在拼命爭奪第一的位置。
就在谷歌慶祝自家大模型Gemini發佈一週年之際,最新版本的gemini-exp-1206也成功強勢迴歸!
不僅重新登頂Chatbot Arena總榜第一,而且還在代碼能力榜上與o1並駕齊驅。
最新亮點(括號內爲與gemini-exp-1121相比的進步):
總排名登頂第一(從第2升至第1)
在風格控制評測中與GPT-4o-1120並列第一(從第4升至第1)
在代碼能力榜單與o1並列第一(從第3升至第1)
在複雜提示詞測試中獨佔鰲頭(從第2升至第1)
左右滑動查看
來自UC伯克利、斯坦福、UCSD等高校的學生聯合項目,引發了AI界的狂熱
有趣的是,當Chatbot Arena在去年年初剛剛發佈時,沒人會想到這個由學生主導的項目,竟會迅速成爲全球最受矚目的AI系統評測平臺。
傳統上,AI技術都是通過高等數學、科學和法律測試來評估的。相比之下,Chatbot Arena採用的則是一套完全不同的方式——用戶提出問題,兩個匿名AI模型給出答案,然後評判哪個回答更好。
最終,這些評分被彙總到一個排行榜上。在這裡,OpenAI、谷歌和Meta等硅谷科技巨頭會與來自中國和歐洲的初創或者大廠爭奪霸主地位。
Meta AI產品管理總監Joseph Spisak表示:「每家公司都在努力爭取登上這個排行榜的榜首。看到幾個學生能夠產生如此重大的影響力,真是令人讚歎。」
隨着科技公司投入數百億美元押注AI將成爲未來幾十年的決定性技術,Chatbot Arena迅速走紅。
在吸引客戶和人才方面,任何領先競爭對手的優勢都可能帶來重大影響,這就是爲什麼衆多科技高管和工程師像華爾街交易員盯盤一樣密切關注Chatbot Arena。
他們使用類似職業象棋排名的評分系統,將自己開發的AI技術與其他開源聊天機器人進行對比。並在僅僅一週的時間裡,就收到了4,700個評分。
很快,Chatbot Arena就引起了各大AI公司的關注,它們紛紛請求將自家技術納入排名。
如今,項目中的模型已經從最初的9個,發展到了超過170個,並累計獲得了200萬張選票。
不僅如此,現在的排名還擴展到了創意寫作、編程和指令執行等專門類別。
目前,這個項目由仍在攻讀計算機科學博士學位的Anastasios Angelopoulos繼續推動。不過,因爲他把大部分精力都投入到了這個非營利的項目當中,學業進展比較緩慢。
對此,Angelopoulos調侃道:「我女朋友從早到晚聽到的都是關於Chatbot Arena的事。」
靠「感覺」來評分
研究人員表示,隨着時間推移,學術基準測試變得越來越不實用,因爲LLM已經接觸過這些測試題。也就是說,它們已經提前掌握了答案。
Abacus AI的研究主管Colin White表示:「基準測試在剛發佈時可能對LLM來說非常具有挑戰性,但當新一代LLM出現後,它們很快就能達到近乎完美的表現。」
爲此,他們也提出了一種號稱「無法作弊」的基準——LiveBench,每個月都會更新新的測試題。
無獨有偶,MMLU的創始人之一Dan Hendrycks,也開始通過衆包方式收集最具挑戰性的問題,用來創建一個全新的基準測試——「人類的最後考試」。
儘管Chatbot Arena採用的一對一對抗形式不會像標準測試那樣被輕易攻克,但這種方式並不總能衡量客觀標準,也無法判斷聊天機器人是否嚴格遵循已驗證的事實。這就是爲什麼一些研究人員將這種方法稱爲「基於主觀感受的評估」。
Chatbot Arena的負責人表示,他們始終對平臺的侷限性保持開放態度,並允許用戶在查看排名時過濾掉一些風格因素,比如回覆的長度和格式等。
Angelopoulos說:「用戶的偏好是一個重要參考指標。畢竟這些測試查詢本身就包含主觀因素。」
神秘的模型
隨着Chatbot Arena的影響力不斷擴大,AI愛好者們開始密切關注新加入的模型,希望發現一些尚未公開的技術。
今年5月,一個名爲「im-also-a-good-gpt2-chatbot」的神秘模型出現在Chatbot Arena上,並隨即引發了激烈的討論。
結果證明,這個模型正是OpenAI後來發佈的GPT-4o。
當然,不只有OpenAI,馬斯克的xAI、Meta和谷歌等,也都會在正式發佈之前在Chatbot Arena上測試他們的模型。
11月,谷歌在Chatbot Arena上發佈了Gemini技術的實驗版本,隨後與OpenAI並列第一。沒過幾天,OpenAI通過更新版的GPT-4o暫時領先,但谷歌很快又推出新模型追平了比分。
當時,負責監督Gemini開發的Oriol Vinyals分享了排行榜結果,還俏皮地配上了三個看戲吃瓜的爆米花表情。
如今,Chatbot Arena收集的用戶反饋已經成爲開發者的重要數據來源。
具體來說,平臺定期公開20%的收集數據——這個比例既能確保數據的實用性,又能防止企業利用數據操縱評分系統。
比如,谷歌AI產品經理Kate Olszewska就表示,他們會利用這些數據來分析懂技術的用戶是如何與聊天機器人互動的。
目前,Chatbot Arena已經招募了十多名貢獻者,他們希望,能將這個項目打造成「AI領域的維基百科」。
即便前路漫漫,但團隊並沒有打算將其轉變爲營利性項目。
參考資料:
https://www.wsj.com/tech/ai/the-uc-berkeley-project-that-is-the-ai-industrys-obsession-bc68b3e3