當前位置: 華文世界 > 科技

一種新神經網絡架構讓AI更易懂

2024-09-02科技

(來源:MIT TR)

科學家對神經網絡中人工神經元工作方式進行調整可以使人工智能更容易被理解。

人工神經元是深度神經網絡的基本組成部份,幾十年來幾乎沒有任何變化。雖然這些網絡賦予了現代人工智能強大力量,但它們向來都是難以捉摸的。

現有的人工神經元用於 GPT-4 等大型語言模型,其工作原理是:接收大量輸入,將它們相加,然後使用神經元內部的另一種數學運算將總和轉換為輸出。這些神經元組合在一起形成了龐大的神經網絡,它們的組合工作可能很難解碼。

但這種組合神經元的新方法的工作原理略有不同,現有神經元的一些復雜性被簡化並移到神經元之外。在內部,新的神經元只需對它們的輸入進行求和並產生輸出,而不需要額外的「隱藏操作」。這種神經元網絡被稱為 Kolmogorov-Arnold Networks(KAN),其以開發它們的俄羅斯數學家的名字進行命名。

麻省理工學院的一個研究小組對這種簡化進行了詳細研究,可以讓人們更容易理解為什麽神經網絡會產生某些輸出,幫助驗證他們的決策,甚至探究偏差。初步證據還表明,隨著 KAN 變得越來越大,它們的準確性比傳統神經元構建的網絡提升得更快。

「這是一項有趣的工作,人們試圖從根本上重新思考這些網絡的底層設計,這非常好。」在紐約大學研究機器學習基礎的 Andrew Wilson 說道。

KAN 的基本機制實際上是在 20 世紀 90 年代提出的,研究人員不斷構建此類網絡的簡化版本。但麻省理工學院領導的團隊進一步發展了這個想法,展示了如何構建和訓練更大的 KAN,對它們進行了實證測試,並分析一些 KAN 以展示人類如何解釋它們解決問題的能力。「我們重新啟用了這個想法。希望憑借可解釋性,我們或許不再認為神經網絡是一個‘黑匣子’。」麻省理工學院 Max Tegmark 實驗室的博士生劉子鳴表示。

雖然現在還處於早期階段,但該團隊在 KAN 方面的工作已經引起了業界大量關註。GitHub 頁面猶如雨後春筍般湧現,展示了如何將 KAN 用於各種套用,比如影像辨識、解決流體動力學問題等。

尋找公式

當前的進展其實是在麻省理工學院、加州理工學院和其他研究所的同事探索標準人工神經網絡的內部工作原理時取得的。

如今,幾乎所有類別的人工智能,包括用於構建大型語言模型和影像辨識系統的人工智能,都包含稱為「多層感知器(MLP)」的子網絡。在 MLP 中,人工神經元排列成密集且相互連線的「層」中。每個神經元內部都有一個稱為「啟用函數」的元素,這是一種數學運算,它接受一堆輸入並以某種預先指定的方式將其轉換為輸出。

在 MLP 中,每個人工神經元接收來自前一層中所有神經元的輸入,並將每個輸入乘以相應的「權重」(表示該輸入重要性的數值)。這些加權輸入被加在一起,並饋送到神經元內部的啟用函數以生成輸出,然後將其傳遞到下一層的神經元。例如,MLP 透過為所有神經元的輸入權重選擇正確的值來學習區分貓和狗的影像。至關重要的是,啟用函數是固定的,在訓練過程中不會改變。

經過訓練後,MLP 的所有神經元及其連線本質上充當了另一個函數,它接受輸入(例如,影像中的數萬個像素)並產生所需的輸出(例如,0 代表貓,1 代表狗)。理解該函數的樣子(即其數學形式)是理解它為何產生某些輸出的重要組成部份。例如,為什麽它會根據某人的財務狀況將其標記為信譽良好的人?但 MLP 是個「黑匣子」,對於影像辨識等復雜任務,對網絡進行逆向工程幾乎是不可能的。

即使當劉子鳴和同事嘗試對 MLP 進行逆向工程以完成涉及客製「合成」數據的簡單任務時,他們也遇到了困難。

「如果我們甚至無法解釋這些來自神經網絡的合成數據集,那麽處理現實世界的數據集就毫無希望了。我們發現嘗試理解這些神經網絡真的很難,所以我們想改變架構。」劉子鳴說。

重繪數學

這個過程中,最主要的變化是刪除了固定的啟用函數,並引入了一個更簡單的可學習函數,以在每個輸入進入神經元之前對其進行轉換。

與 MLP 神經元中的啟用函數接收大量輸入不同,KAN 神經元外部的每個簡單函數接收一個數碼並輸出另一個數碼。目前在訓練過程中,KAN 不再像 MLP 那樣學習單個權重,而是只學習如何表示每個簡單函數。在今年釋出在預印本伺服器 ArXiv 上的一篇論文中,劉子鳴和團隊表明,神經元之外的這些簡單函數更容易解釋,使得重建整個 KAN 所學習的函數的數學形式成為可能。

然而,該團隊僅在簡單的合成數據集上測試了 KAN 的可解釋性,而沒有測試更復雜的影像辨識等現實世界問題。「我們正在慢慢突破界限,可解釋性可能是一項非常具有挑戰性的任務。」劉子鳴說。

劉子鳴和團隊還表明,隨著規模的增加,KAN 能夠比 MLP 更準確地完成任務。該團隊從理論上證明了這一結果,並針對與科學相關的任務(例如學習近似與物理相關的函數)進行了實證驗證。「目前還不清楚這一觀察結果是否會擴充套件到標準機器學習任務,但至少對於科學相關任務來說,它似乎很有希望。」劉子鳴說。

劉子鳴也承認 KAN 還有一個不足之處:與 MLP 相比,訓練 KAN 需要更多的時間和算力。

「這限制了 KAN 在大規模數據集和復雜任務上的套用效率。」西交利物浦大學的張迪表示。他認為,更高效的演算法和硬件加速器可能會有所幫助。

Anil Ananthaswamy 是一位科學記者和作家,撰寫有關物理學、計算神經科學和機器學習的文章。他的新書【機器為何學習:現代人工智能背後的優雅數學】於 7 月由達頓(美國企鵝蘭登書屋)出版。

原文連結:

https://www.technologyreview.com/2024/08/30/1103385/a-new-way-to-build-neural-networks-could-make-ai-more-understandable/