當前位置: 華文世界 > 科學

新加坡國立大學賴載興教授專訪:用混沌邊緣改善神經網絡,與上帝擲骰子

2024-06-30科學

混沌邊緣對神經網絡的最佳化能否讓深度學習「黑箱」變得透明?

作者丨陳鷺伊

編輯丨岑峰

2021年,諾貝尓獎委員會決定將物理獎頒發給復雜系統研究領域、以喬治·帕裏西(George Parisi)為首三位科學家。當時不僅物理學界,許多計算神經科學家或理論機器學習學者表達了對帕裏西的祝賀和感激,認為他的理論成果極大地推動了神經網絡理論研究這一跨學科領域的蓬勃發展。

在新加坡國立大學,Choy Heng Lai(賴載興)教授便是這一波復雜系統與神經網絡跨學科研究風潮的代表人物之一。賴教授的學術生涯,始於對物理學的熱愛和對未知的好奇。上個世紀70年代在芝加哥大學求學期間,他深入研究了粒子現象學和場論,探索了弱相互作用模型構建時期的標準模型;在哥本哈根的尼爾斯玻爾研究所,他進一步拓展了自己的學術視野,從量子色動力學的角度研究了電子-正電子湮滅過程中的多噴流結構。這一研究不僅加深了他對物理學的理解,更激發了他對復雜系統的濃厚興趣。

加入新加坡國立大學後,賴教授面臨著一個全新的學術環境。遠離實驗資訊中心的他,開始轉向粒子物理學的其他領域,探索強子相互作用的幾何影像、經典規範場理論和量子場理論。然而,他逐漸意識到,還原論方法並不足以充分解釋集體性質和復雜行為的湧現。這一認識,促使他開始探索非線性動力學和混沌,逐步進入復雜網絡和更廣泛的復雜系統研究領域。

1

混沌邊緣:

神經網絡訓練的新思路

在此過程中,賴教授及其團隊的最新研究——【Asymptotic edge of chaos as guiding principle for neural network training】——成為了深度學習領域的一個創新之舉。這項研究首次嘗試將混沌邊緣(edge of chaos)的概念套用於神經網絡訓練,提出了一種新的訓練原則,即在混沌邊緣,深度學習模型能夠展現出最佳的泛化效能。這一發現不僅是對深度學習理論的貢獻,也為未來的訓練策略指明了方向。

「混沌」是「秩序」的反義詞,是隨機混亂,是不可預測的「蝴蝶效應」;混沌邊緣源自復雜系統理論,並描繪了一種處於有序與混沌之間的動態平衡狀態。這一理論基礎不僅在物理學、生物學等多個學科中展現出其深遠的影響,也在神經網絡和人工智能的研究中揭示了其獨特的價值。

神經網絡本質上是復雜的非線性動力學系統,它們展現出的混沌特性賦予了它們獨特的資訊處理能力。正是這種與混沌緊密相連的本質,使得混沌神經網絡被視為模擬現實世界復雜計算任務的智能資訊處理系統之一。在神經科學領域,有研究表明,大腦在某些操作點上可能接近混沌邊緣,這樣的狀態被認為能夠最佳化資訊處理和學習能力。 不同於當前主流人工智能研究試圖用一種簡單的數學方法來理解人工智能模型,混沌邊緣的概念不僅啟示了一種新的思考方式,而且為我們理解大腦如何處理復雜資訊提供了一個強有力的理論工具。

混沌邊緣原理表明,在有序與混沌之間的動態平衡狀態可以促進資訊的最大化處理。在神經網絡中,這意味著網絡能夠在保持足夠穩定性的同時,對輸入數據進行高效的資訊編碼和處理。這種平衡狀態為理解網絡內部的決策過程提供了一個視窗,因為網絡在混沌邊緣的操作可能伴隨著更加明顯和可追蹤的動態模式。

賴教授這項研究的核心,在於如何將混沌邊緣的理論轉化為實際的神經網絡訓練策略。賴教授及其團隊選擇了一種常用的訓練演算法和正則化過程,展示了如何根據這一理論原則來設定訓練超參數,而不是依賴傳統的反復試驗或基於啟發式的方法。他們提出了一種「半解析」方法來確定最佳的權重衰減強度,這種方法需要對基礎解析方程式進行一定的校準,以估計維持模型在混沌邊緣的最佳權重衰減強度。

2

與上帝擲骰子

賴教授的研究不僅僅在探索混沌邊緣對於最佳化神經網絡效能的潛力,而且還著重於提高人工智能系統的可解釋性。在人工智能領域,尤其是深度學習模型,通常被認為是「黑箱」,因為它們的決策過程缺乏透明度。然而,賴教授研究中使用的混沌邊緣原理,提供了一種可能的途徑來增強模型的可解釋性。

透過賴教授的「半解析」方法,研究人員能夠更精確地控制神經網絡的權重衰減,從而維持網絡在混沌邊緣的最佳狀態。這種方法不僅有助於提升網絡的泛化能力,還可能揭示網絡如何透過權重的調整來響應不同的輸入數據。因此,混沌邊緣原理的套用為理解神經網絡的決策機制提供了一種新的視角,有助於我們解釋和預測模型的行為。

此外,賴教授的研究還指出,透過適當的正則化,可以推動模型向有序狀態轉移,從而實作更好的效能。這種正則化方法,如權重衰減,透過懲罰過大的權重值來防止模型過擬合,同時保持模型的復雜性和表達能力。這種方法的引入,為解釋模型的行為提供了更多的線索,因為正則化項直接影響了模型的決策邊界和敏感度。

正如一句話所言:問題不在於上帝是否擲骰子,而在於如何擲骰子。賴教授的研究,不僅在理論上具有創新性,更在實踐中顯示出巨大的潛力。這一原則也適用於高度復雜的模型和任務,或許這一研究的潛在套用,有望影響未來的神經網絡訓練策略,幫助我們了解「如何擲骰子」。

在這篇文章中,我們將深入探討賴教授的這項創新研究,從其理論基礎到實踐套用,從團隊合作到研究挑戰,我們將一一呈現。以下為雷峰網-AI科技評論與賴教授的采訪實錄,AI科技評論 做了不修改原意的編輯:

一、論文解讀

AI科技評論 : 您的最新論文【Asymptotic edge of chaos as guiding principle for neural network training】探討了混沌邊緣在神經網絡訓練中的作用。您能為我們解讀一下這項研究的創新點嗎?

賴載興: 這項研究我們早期發現(https://arxiv.org/abs/1909.05176 ) 的首次套用嘗試,即深度學習模型在接近混沌邊緣時具有最佳泛化效能。然後,我們被激勵在實踐中套用這種「混亂邊緣」原則。我們選擇關註一種常用的訓練演算法和正則化過程,以證明人們可以根據這一理論原理來設定訓練超參數,而不是像通常那樣進行反復試驗或基於啟發式方法。

AI科技評論 : 您是如何將經典的 Sherrington-Kirkpatrick 模型與神經網絡訓練過程中的動力系統聯系起來的?

賴載興: 謝林頓-柯克柏德烈自旋玻璃模型 (SK 模型)【註1】已被物理學家用來理解神經網絡。我們的貢獻是將現代神經網絡訓練過程進一步對映到SK模型相圖上,並進一步將訓練超參數與物理動力學過程聯系起來,以便可以清楚地理解每個參數在有序混沌過渡過程中的作用。

AI科技評論 : 論文提到了一種設定最佳權重衰減強度的「半解析」方法。您能詳細說明一下這個方法是如何工作的以及它對提高模型效能的意義嗎?

賴載興: 「半解析」意思是因為它需要對基礎解析方程式進行一定的校準。為了估計將模型維持在混沌邊緣的最佳權重衰減強度,我們需要知道它與其他訓練超參數之間的數學關系。雖然它們之間的函數依賴性可以透過分析得出,但方程式中的某些常數需要根據經驗進行校準。本質上,透過「設定」這個最佳權重衰減強度,模型將不斷探索學習數據模式的最佳權重配置,從而實作最佳測試精度。

AI科技評論 :您如何看待這一研究在深度學習理論和實踐中的潛在套用?它將如何影響未來的神經網絡訓練策略?

賴載興: 我們認為這是使用「混沌邊緣」【註2】作為增強深度學習模型訓練原則的第一個概念驗證。雖然我們在簡單的訓練任務上選擇了一個簡單的模型,但我們預計這一原則也適用於高度復雜的模型和任務,盡管控制混沌邊緣的確切實作可能會有所不同。

AI科技評論 :團隊在研究過程中遇到的主要挑戰是什麽,如何解決的?另外,您認為目前的研究差距和最佳化計劃是什麽?

賴載興: 研究過程中有很多失敗的嘗試。我們研究了模型和訓練機制的許多不同變體,但大未能提供清晰的洞見或因過於復雜而難以分析。但所有這些失敗都幫助我們對理論圖景和深度學習訓練動態有了更深入的了解,其中不少發現令人振奮。

此外,我們面臨的另一個挑戰是如何將跨學科的研究成果傳達給特定領域的專家,尤其是電腦科學家。物理學家與電腦科學家在研究人工智能時可能采用截然不同的視角和方法,有時甚至顯得格格不入。然而,這種跨學科的交流極大地促進了我們向他們學習,從而顯著提升了我們的研究質素。

我們之間的一個研究差距可能是,目前的人工智能研究依賴簡單的數學方程式來理解人工智能模型,隱含地希望在解釋它時能達到一些簡單性。然而,人工智能似乎利用的是復雜性而不是簡單性,這種隱含的「簡單性」假設可能會阻礙理解人工智能深入理解的進展。工智能深入理解的進展。

AI科技評論 :全球範圍內,有哪些頂尖研究團隊正在開展與您類似的專案?

賴載興: 除了人工智能之外,復雜性科學中也有「混沌邊緣」的相關研究。他們中的許多人研究生物網絡和 分布式水庫電腦網絡(Reservoir Computer Networks) 。著名的包括印第安納大學伯明根分校的約翰·貝格斯(John Beggs)、賓夕法尼亞大學的丹尼·S·巴塞特(Dani S. Bassett)。

二.領域洞見

AI科技評論 :您認為當前機器學習和深度學習領域面臨的最大挑戰是什麽?您的研究如何幫助應對這些挑戰?

賴載興: 最大的挑戰可能是可解釋性,這樣模型就可以用來完成艱巨的任務。我們研究中使用的混沌邊緣原理可以作為提高人工智能可解釋性的理論基礎。

AI科技評論 :您能否介紹一下本研究的套用前景和潛在挑戰?

賴載興: 我們的研究是概念驗證的第一步,表明利用復雜系統科學中的原理可以幫助建立更好的人工智能模型。從長遠來看,它可以帶來更好、更復雜的訓練演算法或模型架構。然而,由於大型語言模型等最先進的模型非常龐大且復雜,因此實作更好的人工智能模型非常具有挑戰性。

AI科技評論 : 您如何看待量子資訊科學和復雜系統研究在未來技術發展中的作用?他們將如何推動跨學科創新?

賴載興: 量子資訊科學正沿著一條不可阻擋的軌跡迅速發展,這不僅得益於它巨大的潛力,更源於它對量子技術革新的驅動作用。隨著我們對量子世界的認識日益加深,對通訊、計算和安全等領域的高級功能需求不斷增長,探索量子領域已成為一個合乎邏輯的下一步。制造量子器材是一個復雜的過程,它要求精密的工程技巧和跨學科知識的融合。量子資訊科學有潛力成為連線多個前沿創新的關鍵紐帶。

復雜系統科學正逐漸被視為一種普遍的方法論和思考框架,而不僅僅是特定領域的知識。它已經滲透並融入了眾多學科包括物理、化學、生物醫學、工程,乃至社會科學、經濟學、物流等領域,以及城市動力學、彈性和可持續性問題。這些問題的解決不再局限於傳統學科的視角,而是需要跨學科的協作和貢獻。隨著復雜性思維成為研究的常態,「復雜性科學」這個術語在未來很可能會從我們的詞匯中消失。

三、學術背景及展望

AI科技評論 :您能簡單介紹一下您的個人背景和學術歷程嗎?您是如何從粒子現象學和場論過渡到非線性動態系統、量子混沌和復雜系統的?

賴載興: 我1971 年至 1978 年間在芝加哥大學完成了本科至博士的學習, 我的博士論文是關於(反)微中子誘導的二緲子的產生,這項研究為弱相互作用模型構建時期提供了對標準模型的深入和及時評估。隨後,在我哥本哈根的尼爾斯玻爾研究所,我深入研究了量子色動力學下的電子-正電子湮滅過程。

加入新加坡國立大學後,我面臨了與實驗資訊中心距離較遠的挑戰,這促使我轉向粒子物理學的其他理論領域,包括強子相互作用、經典與量子規範場理論。我被整體論所吸引,認為還原論方法不能完全解釋復雜系統的集體行為。我的研究逐步從非線性動力學和混沌理論擴充套件到復雜網絡和系統,這是一段充滿發現的物理學之旅。

AI科技評論 :在學術傳承方面,您在物理學方面有科學根源,在教育方面,您推動了新加坡國立大學計算科學的發展。您過去的經歷如何塑造您的專業技能和研究視角?它與本研究有何關系?

賴載興: 在我看來,求知欲是學者最寶貴的品質,它驅使我們超越自己的專業領域,對新的問題保持好奇,欣賞並吸收他人的創新思維和方法,以及用自己學科的原則和概念來構建問題和挑戰。我在芝加哥大學接受的跨學科教育,涵蓋物理、人文、社會科學以及生物和化學,為我日後在新加坡國立大學的多元教育發展中打下了堅實的基礎。無論是建立計算科學專案、轉型物理系研究方向,還是參與創立耶魯-新加坡國立大學學院,這些經歷都豐富了我的教育背景和科學視野。

最近,我將研究領域擴充套件到了機器學習物理學,這一轉變源自對深度學習基本原理的深入思考。在物理學中,我們習慣於透過對稱性或最佳化原則(如最小作用原理、熵最大化等)來理解現象。如果我們將深度學習視為一個動態過程,我會關註在這個過程中哪些量被最小化或最大化,以及這些過程背後的機制是什麽。這種探索在某種程度上是第一波神經網絡浪潮中物理學家工作的延續,並有助於我們在深度學習領域實作更高的可解釋性和可重復性。

AI科技評論 :您能分享一下您目前的一些研究方向或正在進行的專案嗎?

賴載興: 我的同事(Feng Ling, Chen Kan, 和一些研究生)目前正在進行城市動力學問題的概念框架和套用開發,包括城市韌性(臨界點、預警訊號、預測……)、城市環境中的疫情傳播,以及社交網絡上的資訊傳播和控制(包括錯誤資訊)。這項工作是在新加坡國立大學城市框架下進行的。

我參與的另一個方向是新加坡的AI for Science倡議,希望能夠利用新加坡已建立的科學界社群來推動人工智能的套用,並可能為理解人工智能過程的機制和動態提供反饋。

AI科技評論 : 最後,您對科學和教育有哪些個人哲學或信念?這些對您的研究和職業有何影響?

賴載興: 我的朋友阿圖爾·埃克特(Artur Ekert)是量子技術中心的首任主任,他在所有電子郵件中都參照了一句話:「做你喜歡的事,喜歡你所做的事」。我非常贊同這句話。我個人認為,成為一名科學家是一種特權,你可以追隨自己的熱情,將學習和探索視作生活方式,而非單純的「工作」。換言之,你從事研究是源於你的激情和興趣;教學是希望分享知識的喜悅;承擔學術管理,是因為對所屬機構有深厚的歸屬感和責任感。自己的學術生涯能如此充實,盡管這可能帶有些許理想化色彩。不幸的是(也許?!),現代學術界越來越重視研究成果作為成功的唯一標準,這可能會改變年輕學者對學術成就的認識和滿足感。

註1: 謝林頓-柯克柏德烈(Sherrington-Kirkpatrick,簡稱SK)自旋玻璃模型是一個物理學中的簡化模型,涉及到大量元素之間的復雜相互作用,用數學語言來描述,在一種被稱為自旋玻璃特殊的磁性材料所包含的中隨機分布、完全無序的小磁鐵之間非常復雜和混亂的磁場模式,以及這些小磁鐵如何在這個混亂的網絡中找到一種平衡狀態。簡而言之,SK模型是一個探索復雜系統中秩序與混亂相互作用的重要工具,這個模型也在研究大腦神經元如何協同工作時提供了洞見。

註2: "混沌邊緣"(Edge of Chaos)是一個描述系統動態行為的術語,它指的是一種特殊狀態,其中系統的行為既不是完全有序的,也不是完全無序的。這個概念在復雜系統理論中非常重要,因為它通常與系統的高適應力和資訊處理能力相關聯。在人工智能和機器學習中,研究者嘗試利用混沌邊緣的概念來設計更智能、更能適應新情況的演算法。

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!


公眾號轉載請先在「AI科技評論」後台留言取得授權,轉載時需標註來源並插入本公眾號名片。