清華團隊研發腦啟發AI模型，為感知資訊處理提供全新範例

2024-05-13科技

人類天生具有分離各種音訊訊號的能力，比如區分不同的說話者的聲音、或將聲音與背景噪音區分開來。這種天生的能力被稱為「雞尾酒會效應」。

中樞聽覺系統透過分析聲音流中的模式的統計結構（例如頻譜或包絡），可以輕松地在混合的聲音中辨識特定的目標聲音。

在 AI 領域，設計與人類一樣強大的語音分離系統長期以來一直是一個重要目標。

先前的神經科學研究提示：人類大腦經常利用視覺資訊來幫助聽覺系統解決「雞尾酒會問題」。

受到這一發現的啟發，視覺資訊被納入進來以改善語音分離質素，由此產生的方法被稱為多模態語音分離方法。

如果系統能夠捕捉到唇部運動，這一額外線索將有助於語音處理，因為它在嘈雜環境中補充了語音訊號的資訊遺失。

然而，現有的多模態語音分離方法的分離能力仍遠遠不及人類大腦。

基於此，清華大學生物醫學工程學院苑克鑫教授團隊打造了一款腦啟發 AI 模型（CTCNet，cortico-thalamo-cortical neural network）。

圖 | 苑克鑫（來源：苑克鑫）

該模型的語音分離效能大幅領先於現有方法，不僅為電腦感知資訊處理提供了新的腦啟發範例，而且在智能助手、自動駕駛等領域有潛力發揮重要作用。

苑克鑫表示：「CTCNet 是在皮層-丘腦-皮層環路和 A-FRCNN 基礎上的結果。」

近些年，苑克鑫課題組針對高級聽覺丘腦及其皮層聯接的架構和生理學特性進行了系統性研究。

在此基礎上，結合清華大學電腦系胡曉林教授課題組之前的語音分離套用演算法，他們提出了一種多模態語音分離方案。

然後，使用公開數據集進行了一系列的語音分離測試和調參，最終才得到了具有優異語音分離效能的 CTCNet。

（來源：TPAMI）

因此，本次研究是在機制研究的基礎上引發的套用研究。

「總體而言，這是一個雙向奔赴的合作過程。作為一名 AI 研究者，也特許以透過閱讀腦科學領域的文獻來獲得靈感，但與腦科學研究者的直接溝通一定是最為高效。」苑克鑫說。

他繼續表示，在沒有相應知識的情況下，AI 研究者透過閱讀文獻來理解大腦的工作原理是有一定困難的。

而作為腦科學研究者，應該有將研究成果向 AI 領域轉化的意識和意向，主動與 AI 領域的研究者接觸、討論，這樣才有可能碰撞出火花。

事實上，AI 研究者在沒有腦科學知識的情況下，已經在試圖模擬大腦的部份功能，只不過腦科學研究者並不知道。

透過接觸和了解，腦科學研究者就有機會將其研究成果遷移至 AI 研究者已經開展的腦功能模擬的嘗試中，從而助力於開展真正有效的腦啟發 AI 研究。

苑克鑫表示：「透過本次研究，我深切體會到了神經科學與 AI 領域的研究人員之間加強交流，對於有效開展腦啟發 AI 相關工作的重要性。」

圖 | 胡曉林（來源：百度百科）

據了解，苑克鑫與胡曉林都同時是清華大學與大腦研究相關的三個中心的兼職研究員，因此經常有機會互相聽對方的工作報告，這成為了他們發起合作的契機。

另外，由於神經科學與 AI 是兩個截然不同的學科，合作的成功離不開雙方團隊成員的密切交流。

雖然在交流過程中經常出現詞同意不同的情況，甚至出現互相聽不懂對方在說什麽的情況，但是雙方都有足夠的耐心去理解對方措辭的內涵，這成為了最終合作成功的重要保障。

最終，相關論文以【由皮層-丘腦-皮層環路啟發的視聽語音分離模型】（An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits）為題發在 Transactions on Pattern Analysis and Machine Intelligence （ TPAMI ）[1]。

胡曉林團隊的碩士生李凱是第一作者，苑克鑫團隊的博士後謝鳳華、以及胡曉林團隊的博士生陳航分別是第二作者和第三作者，苑克鑫和胡曉林擔任共同通訊作者。

圖 | 相關論文（來源：TPAMI）

下一步：

首先，他們將解析在單丘腦神經元水平上視、聽覺資訊的空間和時間整合模式，希望能夠借助於該模式實作對 AI 模型的升級，進一步提高模型的語音分離效能，使其能夠應對更加復雜的自然場景；

其次，他們將探索該模型在其他套用場景，如探索在噪音背景下的醫學訊號檢測中的套用潛力；

最後，他們將解析在中樞感覺系統中處於更低層級腦區，如中腦中的多模態神經元的解剖、功能聯接架構，進而探索這些聯接架構啟發 AI 模型構建的潛力。

預計擬構建的一系列 AI 模型，將能逆向揭示不同多模態感覺核團、及其中的神經元，在中樞感覺資訊處理中可能扮演的重要角色和工作機制。

參考資料：

1.K. Li, F. Xie, H. Chen, K. Yuan and X. Hu, "An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits" in IEEE Transactions on Pattern Analysis & Machine Intelligence , vol. , no. 01, pp. 1-15, 5555.

營運/排版：何晨龍