NeurIPS 2024評審結果公佈!AI大佬曬出成績單,又是被吐槽最嚴重的一屆
新智元報道
編輯:桃子
【新智元導讀】一年一度的NeurIPS 2024評審結果公佈了。一大波網友紛紛曬出自己的成績單。不過,這屆頂會又成爲吐槽災區了。
NeurIPS 2024評審結果已經公佈了!
收到郵件的小夥伴們,就像在開盲盒一樣,紛紛在社交媒體上曬出了自己的成績單。
俄亥俄州立大學助理教授曬圖,明明評審員給的評價是「論文接收」,卻沒想到最終決定是「拒收」。
應該給這位審稿人頒發一個NeurIPS 2024最佳AC獎
順便提一句,今年是NeurIPS第38屆年會,將於12月9日-15日在加拿大溫哥華舉辦。
AI大佬曬出成績單
一些網友們早已曬出了自己的錄用結果,好像一件大事。
來自洛桑聯邦理工學院(EPFL)的博士Maksym Andriushchenko稱,自己有3篇論文被NeurIPS 2024接收。
它們分別是:
論文一:Why Do We Need Weight Decay in Modern Deep Learning?
論文地址:https://arxiv.org/pdf/2310.04415
權重衰減(weight decay),比如在AdamW中傳統上被視爲一種正則化的方法,但效果非常微妙,即使在過度參數化的情況下也是如此。
而對大模型而言,權重衰減則扮演者完全不同的角色。與最初一版arXiv論文相比,研究人員對其進行了很多更新。
Andriushchenko表示,自己非常喜歡這項新實驗,並且匹配了AdamW有效學習率,得到了完全相同的損失曲線,而沒有使用權重衰減。
論文二:JailbreakBench(Datasets and Benchmarks Track)
論文地址:https://arxiv.org/pdf/2404.01318
JailbreakBench是全新評估大模型越獄能力的基準。上個月,該數據集在HuggingFace上,被下載了2500次。
而且,多家媒體還使用了這個越獄神器,Gemini 1.5技術報告中也將其用於模型穩健性的評估。
論文三:Improving Alignment and Robustness with Circuit Breakers
論文地址:https://arxiv.org/pdf/2406.04313
這篇論文發佈之初,已經掀起了不少的討論。
其中最重要的一點是,它有助於訓練Cygnet模型,其在越獄競技場上表現出驚人的性能,而這正是對防禦是否有用的測試。
來自UT Austin的副教授Qixing Huang也有三篇論文被NeurIPS錄用。
它們分別是:
局部幾何感知神經曲面表示法CoFie。
以及另外兩篇,一個是參數化分段線性網絡PPLN,另一個是關於時空聯合建模的運動生成。
谷歌DeepMind團隊Self-Discover算法被NeurIPS 2024錄用。
中國有句古話:千人千面。正如每個人都是獨一無二的,每個問題也是獨一無二的。如何讓LLM通過推理解決複雜的看不見的問題?
Self-Discover最新論文證明了,模型可以從一般問題解決技術的集合中,組成特定用於任務的推理策略。
最新算法在GPT-4和PaLm 2-L上的性能比CoT高32%,而推理計算量比Self-Consistency少10-40倍。
論文地址:https://arxiv.org/pdf/2402.03620
又是被吐槽的一屆
不論是哪個頂會,吐槽是必不可少的。
這不,網友們對NeurIPS 2024審稿結果,吵成一鍋了。
紐約大學工學院的助理教授稱,一篇在NeurIPS提交中得分相當高的論文被拒絕。原因竟是:「模擬器是用C++編寫的,而人們不懂C++」。
他表示,論文被拒的現象太正常了,但是對這個被拒理由,實在是令人震驚。
還有一位大佬表示,團隊的兩篇關於數據集追蹤的NeurIPS論文被拒了,儘管評審結果有積極的反饋。
這顯然是,組委會試圖人爲地標尺較低的錄取率。
「根據錄取率而不是成績來排擠研究,這一點其實我不太確定」。
無獨有偶,UMass Amherst的教員也表達出了這種擔憂:
我看到很多人抱怨 NeurIPS的AC,推翻了最初收到積極評審論文的決定。
作爲一名作者和評審員,我能理解這種做法有多令人沮喪。作爲一名區域主席,我也經歷過管理那些勉強達到錄用分數的論文的壓力,特別是當項目委員會要求更嚴格的錄用率時。
有趣的是,NeurIPS已經變得像「arXiv精選」——突出展示前一年的最佳論文。
一位UCSC教授Xin Eric Wang表示,一篇平均得分爲6.75的NeurIPS投稿被拒絕了。
他表示,這是自己收到第二荒謬的元評審,最荒謬的那次,是因爲結果中沒有加「%」就否決了論文。
無論論文質量如何,似乎總會有無數理由可以否決一篇論文。
LLM參與評審
而且AI火了之後,大模型也被用來論文評審。
這次,NeurIPS 2024也不例外。
Reddit網友評論道,自己用一個月的時間審覈6篇論文,當看到自己得到的是LLM的評價,真的很受傷。
還有人指出,在自己審閱的論文中,至少發現了3篇由大模型生成的評審意見,很可能還有更多,其中3篇明顯是直接複製粘貼了ChatGPT輸出,完全沒有閱讀論文。
這些評審都給了6分,Confidence爲4,與其他所有人的評價完全不一致。
更有網友評價道,「論文評論的質量很低」。
一個評審者混淆了我們方法的基線,另一個評審者混淆了基線的派生(正如我們的工作所批評的那樣)和我們方法的派生。我懷疑一些評論是由LLM產生的。
參考資料:
https://x.com/AlbertQJiang/status/1839048302794518806
https://x.com/PiotrRMilos/status/1839221714674229579