NeurIPS 2024最佳論文開獎!北大字節NUS奪冠,Ilya連續三年獲獎

新智元報道

編輯:編輯部 HYZj

【新智元導讀】NeurIPS 2024最佳論文終於正式揭曉了!今年,來自北大字節,以及新加坡國立大學等機構的團隊摘得桂冠。

剛剛,NeurIPS 2024最佳論文放榜了!

不出所料,今年兩篇最佳論文分別頒給了,和新加坡國立大學Sea AI Lab團隊。

除此之外,大會還公佈了「數據集與基準」賽道的最佳論文,以及主賽道最佳論文獎委員會,數據集和基準賽道最佳論文獎委員會。

今年,是NeurIPS第38屆年會,於12月9日-15日在加拿大溫哥華正式拉開帷幕。

前段時間,NeurIPS 2024剛剛公佈的時間檢驗獎,分別頒給了Ilya Sutskever的Seq2Seq,和Ian Goodfellow的GAN。

有網友發現,Ilya已經連續三年拿下該獎,可以創歷史了。

2022年AlexNet,2023年Word2Vec,2024年Seq2Seq

今年,NeurIPS 2024的總投稿數量再創新高,共有15000多篇論文提交,錄用率爲25.8%。

從研究內容主題的整體分佈來看,主要集中在大模型、文生圖/文生視頻、強化學習、優化這四大塊。

再細分來看,機器視覺、自然語言處理、強化學習、學習理論、基於擴散的模型是最熱的5個話題。

共計165000名參會者,也創下歷年新高。

獲獎論文一:超越擴散,VAR開啓視覺自迴歸模型新範式

論文地址:https://arxiv.org/abs/2404.02905

與傳統的光柵掃描「下一個token預測」方法有所不同,VAR重新定義了圖像上的自迴歸學習,採用粗到細的「下一個尺度預測」或「下一個分辨率預測」。

這種簡單直觀的方法使得自迴歸(AR)Transformer能夠快速學習視覺分佈,並且具有較好的泛化能力:VAR首次使得類似GPT的AR模型在圖像生成中超越了擴散Transformer。

首先,將圖像編碼爲多尺度的token映射,然後,自迴歸過程從1×1token映射開始,並逐步擴展分辨率。

在每一步中,Transformer會基於之前所有的token映射去預測下一個更高分辨率的token映射。

VAR包括兩個獨立的訓練階段:在圖像上訓練多尺度VQVAE,在token上訓練VAR Transformer。

第一階段,多尺度VQ自動編碼器將圖像編碼爲K個token映射R=(r1,r2,…,rK),並通過複合損失函數進行訓練。

第二階段,通過下一尺度預測對VAR Transformer進行訓練:它以低分辨率token映射 ([s],r1,r2,…,rK−1)作爲輸入,預測更高分辨率的token映射 (r 1 ,r 2 ,r 3 ,…,r K )。訓練過程中,使用注意力掩碼確保每個r k 僅能關注 r ≤k 。訓練目標採用標準的交叉熵損失函數,用於優化預測精度。

實驗證明,VAR在多個維度上超越了擴散Transformer(DiT),包括圖像質量、推理速度、數據效率和可擴展性。

其中,VAR初步模仿了大語言模型的兩個重要特性:Scaling Law和零樣本泛化能力。

獲獎論文二:STDE,破解高維高階微分算子的計算難題

第二篇獲獎論文,是由新加坡國立大學和Sea AI Lab提出的一種可通過高階自動微分(AD)高效評估的分攤方案,稱爲隨機泰勒導數估計器(STDE)。

論文地址:https://openreview.net/pdf?id=J2wI2rCG2u

這項工作討論了優化神經網絡在處理高維 (d) 和高階 (k) 微分算子時的計算複雜度問題。

當使用自動微分計算高階導數時,導數張量的大小隨着O(dk)擴展,計算圖的複雜度隨着 O(2k-1L)增長。其中,d是輸入的維度(域的維度),k是導數的階數,L是前向計算圖中的操作數量。

在之前的研究中,對於多維擴展dk,使用的是隨機化技術,將高維的多項式增長變爲線性增長;對於高階擴展 2k-1,則通過高階自動微分處理了一元函數(即d=1)的指數增長問題。

通過反向模式自動微分(AD)的重複應用,計算函數F(⋅)的二階梯度的計算圖。該函數包含4個基本操作(L=4),用於計算Hessian矩陣與向量的乘積。紅色節點表示在第二次反向傳播過程中出現的餘切節點。隨着向量-雅可比積(VJP)的每次重複應用,順序計算的長度會加倍

在研究中,團隊展示瞭如何通過適當構造輸入切向量,利用一元高階自動微分,有效執行多元函數導數張量的任意階收縮,從而高效隨機化任何微分算子。

該方法的核心思想是「輸入切向量構造」。通過構造特定的「輸入切向量」(方向導數),可以將多維函數的高階導數計算轉化爲一元高階自動微分問題。這意味着將複雜的多元導數運算轉化爲多個一元導數運算,從而減小了計算複雜度。

該計算圖顯示了函數F的二階導數d²F,其中F包含4個基本操作,參數θi被省略。最左側的第一列表示輸入的二階射流(2-jet) ,並通過d²F1將其推向下一列中的二階射流 。每一行都可以並行計算,且不需要緩存評估軌跡

將該方法應用於物理信息神經網絡(PINNs)時,相較於使用一階自動微分的隨機化方法,該方案在計算速度上提高了1000倍以上,內存佔用減少了30倍以上。

藉助該方法,研究團隊能夠在一塊NVIDIA A100 GPU上,在8分鐘內求解具有百萬維度的偏微分方程(PDEs)。

這項工作爲在大規模問題中使用高階微分算子開闢了新的可能性,特別是在科學計算和物理模擬中具有重要意義。

「數據集與基準」最佳論文

這篇由牛津、賓大等12家機構聯手提出的數據集PRISM,榮獲了「數據集與基準」賽道的最佳論文。

論文地址:https://openreview.net/pdf?id=DFr5hteojx

這篇論文通過收集來自75個國家、1500多名參與者的詳細反饋,科學家們首次全面繪製了AI模型與人類交互的複雜圖景。

它就像是爲AI「驗血」:不僅僅是檢查技術指標,更是深入瞭解AI與不同文化、不同背景人羣的交互細節。

具體來說,研究人員收集了人們與21個大模型交互的8,011次真實數據。

而且,他們還詳細記錄了參與者的社會人口學特徵和個人偏好。

最關鍵的是,這項研究聚焦了主觀和多文化視角中,最具挑戰性領域,尤其是關注價值觀相關和有爭議問題上的主觀和多元文化視角。

通過PRISM數據集,爲未來研究提供了新的視角:

- 擴大地理和人口統計學的參與度

- 爲英國、美國提供具有人口普查代表性的樣本

- 建立了個性化評級系統,可追溯參與者詳細背景

總的來說,這項研究具有重要的社會價值,並推動了關於RLHF中多元化和分歧的研究。

NeurIPS 2024實驗:LLM作爲科學論文作者清單助手的效果評估

隨着大獎出爐後,NeurIPS 2024終於公佈了將大模型作爲清單助手的效果評估報告。

如今,雖然存在着不準確性和偏見等風險,但LLM已經開始被用於科學論文的審查工作。

而這也引發了一個緊迫的問題:「我們如何在會議同行評審的應用中負責任且有效地利用LLM?」

今年的NeurIPS會議,邁出了回答這一問題的第一步。

論文地址:https://arxiv.org/abs/2411.03417

具體來說,大會評估了一個相對明確且低風險的使用場景:根據提交標準對論文進行覈查,且結果僅顯示給論文作者。

其中,投稿人會收到一種可選擇使用的基於LLM的「清單助手」,協助檢查論文是否符合NeurIPS清單的要求。

隨後,研究人員會系統地評估這一LLM清單助手的益處與風險,並聚焦於兩個核心問題:

1. 作者是否認爲LLM作者清單助手是對論文提交過程的一種有價值的增強?

2. 使用作者清單助手是否能顯著幫助作者改進其論文提交?

最終結論如下:

「LLM清單助手可以有效地幫助作者確保科學研究的嚴謹性,但可能不應作爲一種完全自動化的審查工具來取代人工審查。」

1. 清單助手有用嗎?

研究人員對作者們進行了問卷調查,以便了解他們對使用清單助手前後的期望和感受。

調查共收到539份使用前問卷回覆,清單助手共處理了234份提交,同時收到了78份使用後問卷回覆。

結果顯示,作者普遍認爲清單助手是對論文提交過程的一項有價值的改進——

大多數接受調查的作者表示,使用LLM清單助手的體驗是積極的。其中,超過70%的作者認爲工具有用,超過70%的作者表示會根據反饋修改論文。

值得注意的是,作者在實際使用之前對助手有效性的期望比實際使用後的評價更爲積極。比較使用前後的反饋可以發現,在「有用性」和「期待使用」方面的正面評價出現了具有統計學意義的顯著下降。

2. 清單助手的主要問題是什麼?

作者使用清單助手時遇到的問題,按類別歸納如下。

主要問題包括:不準確性(52名回覆者中有20人提到),以及LLM對要求過於苛刻(52名回覆者中有14人提到)。

3. 清單助手提供了哪些類型的反饋?

研究者使用了另一個LLM,從清單助手對每個清單問題的回覆中提煉關鍵點,將其歸類。

以下展示了作者清單助手在清單的四個問題上提供的常見反饋類別:

LLM 能夠結合論文內容和清單要求,爲作者提供具體的反饋。對於清單中的15個問題,LLM通常會針對每個問題提供4-6個不同且具體的反饋點。

儘管其回覆中有時包含一些模板化內容,並可能擴展問題的範圍,但它也能夠針對許多問題提供具體且明確的反饋。

4. 作者是否真的修改了提交的內容?

根據反饋,很多作者表示計劃對他們的提交內容做出實質性的修改。

在78名回覆者中,有35人具體說明了他們會根據清單助手的反饋對提交內容進行的修改。其中包括,改進清單答案的說明,以及在論文中添加更多關於實驗、數據集或計算資源的細節。

在40個實例中,作者將他們的論文提交到清單驗證工具兩次(總共提交了80篇論文)。

結果顯示,在這40對(兩次提交的)論文中,有22個實例中作者在第一次和第二次提交之間至少更改了清單中的一個答案(例如,從「NA」改爲「是」),並且在39個實例中更改了至少一個清單答案的說明。

在更改了清單說明的作者中,許多作者進行了大量修改,其中35/39在清單的15個問題中更改了超過6個說明。

雖然並不能將這些修改因果歸因於清單助手,但這些修改表明作者可能在提交之間採納了助手的反饋。

以下是在作者更改說明的問題中,從初次提交到最終提交的字數增長情況(值爲2表示答案長度增加了一倍)。

可以看到,當作者更改清單答案時,超過一半的情況下,他們將答案說明的長度增加了一倍以上。

總結來說,當作者多次向清單助手提交時,他們幾乎都會在提交之間對清單進行修改,並顯著延長了答案的長度,這表明他們可能根據LLM的反饋添加了內容。

5. 清單助手是否可以被操控?

清單助手的設計初衷,是幫助作者改進論文,而不是作爲審稿人驗證作者回答準確性的工具。

如果該系統被用作審稿流程中的自動驗證步驟,這可能會激勵作者「操控」系統,從而引發以下問題:作者是否可以藉助AI,在無需對論文做出實際修改的情況下,自動提升清單回答的評價?

如果這種操控是可能的,作者可能會在沒有(太多)額外努力且不實際改進論文的情況下,向會議提供虛假的合規印象。

爲了評估系統是否容易受到這種操控,研究者使用另一個LLM作爲攻擊智能體,迭代性地修改清單說明,試圖誤導清單助手。

在這一迭代過程中,攻擊智能體在每輪之後從系統接收反饋,並利用反饋優化其說明。

研究者向GPT-4提供了初始的清單回答,並指示其僅根據反饋修訂說明,而不改變論文的基礎內容。允許攻擊智能體進行三次迭代(與部署助手的提交限制一致),智能體在每次迭代中選擇得分最高的清單問題回答。

爲了以統計方式量化這種攻擊的成功率,研究者將選定的說明提交給清單助手進行評估,獲取「評分」(當清單助手錶示清單問題「無問題」時得分爲1,當助手識別出問題時得分爲0)。

以下展示了該攻擊的結果:

結論

通過在NeurIPS 2024部署了一個基於LLM的論文清單助手,證明了LLM在提升科學投稿質量方面的潛力,特別是通過幫助作者驗證其論文是否符合提交標準。

然而,研究指出了在科學同行評審過程中部署LLM時需要解決的一些顯著侷限性,尤其是準確性和契合度問題。

此外,系統在應對作者的操控時缺乏抵抗力,這表明儘管清單助手可以作爲作者的輔助工具,但可能無法有效取代人工評審。

NeurIPS將在2025年繼續改進基於LLM的政策評審。

參考資料:

https://blog.neurips.cc/2024/12/10/announcing-the-neurips-2024-best-paper-awards/

https://blog.neurips.cc/2024/12/10/results-of-the-neurips-2024-experiment-on-the-usefulness-of-llms-as-an-author-checklist-assistant-for-scientific-papers/