當前位置: 華文世界 > 科技

ICML最佳論文曾被ICLR拒稿,Pika聯創參與,一作已入職OpenAI

2024-07-25科技
明敏 發自 凹非寺 量子位 | 公眾號 QbitAI
ICML 2024最佳論文出爐,結果發現其中一篇曾被ICLR 2024拒稿?
這篇論文來自史丹佛,Pika創始人之一孟晨琳(Chenlin Meng)也參與了。
它提出了一種新的離散擴散語言建模方法,透過引入分數熵損失函式,提高了離散擴散模型在語言建模任務中的效能。
實驗結果和GPT-2比較,在多數任務中都完勝。
生成效果be like:
5位審稿人給出的分數分別是:88665。
但還是被AC一錘定音,最終reject……
這不禁讓人想起Mamba。作為Transformer架構挑戰者,它開創了大模型的一個新流派。結果卻被ICLR拒稿。
當時這引發不小爭議,包括ICLR創始人之一LeCun都下場表示不滿:
很遺憾,歷屆程式委員會主席慢慢把它變成了一個與傳統評審流程差不多的會議。 只有一些小勝利:OpenReview平台現在被大多數ML/AI會議使用,以及論文送出後立刻就能被所有人閱讀(盡管匿名)。
還有人說:
如果搜尋ICML 2024接收的論文,就會發現很多都被ICLR 2024拒了。
這回又是咋回事?
又栽在實驗不完善上?
這篇論文關註了擴散模型在文本等離散數據領域表現一直不佳的問題。
團隊認為,標準擴散模型依賴於分數匹配(score matching)理論,但是這一機制推廣到離散數據領域後效果不佳。
為了填補這一空白,他們提出了一種新的損失函式分數熵 (score entropy),並構建了分數熵擴散模型(SEDD)。
在主要語言建模任務上,SEDD在目前所有語言擴散模型中表現最佳,和同規模自回歸語言模型不相上下,在零樣本困惑度任務上擊敗GPT-2。
同時SEDD可生成高品質無條件樣本,可以方便在計算量和生成品質之間做權衡。透過直接參數化機率比,SEDD高度可控,可以使用提示詞微調而無需專門訓練。
5位審稿人中,有2位都給出8分高分。
大家普遍肯定了提出的論點。一位評審覺得論文推導過程寫得也很不錯,實驗結果非常令人信服。
不過也有很多小問題被提出,比如拼寫錯誤、忽略了對一些實驗細節的解釋。
從記錄中可以看到,作者針對評審提出的問題進行了詳盡的說明和修改(有的分2條才發完)。
有評審看到調整後的內容,也相應調整了分數。
不過最終AC還是拒收了這篇論文。
反駁的點就主要在於實驗部份不完整 。
所有審稿人都認為,該論文只將GPT-2作為主要基線,缺少和其他擴散模型基線。一些審稿人認為,論文送出時實驗部份不完整。
盡管作者後續增加了一些實驗,但是AC仍然認為不夠完善,而且論文中提到此前擴散模型表現不及自回歸模型的說法可能不夠準確。
△作者後續補充內容
比如SSD-LM、TESS等模型的表現都比GPT-2表現更好,但是論文中卻沒有和這些結果做對比。
總之,AC認為論文提出了很好的idea,但是在實驗和對比上不夠完善。
有人表示,之前Mamba被拒也是類似的原因,後面完善了論文再拿best paper也很合理。
One More Thing
值得一提的是,這篇研究的作者中不光有Pika創始人之一孟晨琳。
一作最近也加入OpenAI,更近距離感受AGI了。他將在最近的ICML 2024上進一步講解這項工作。
論文地址: https://arxiv.org/abs/2310.16834