基於大模型的共享語言空間，模擬人類的「秒懂」機制

2024-08-31科技

文｜追問

追問快讀：我們何以真正聽懂對方的語言？當對方說反話時，為什麽我們能意識到對方真實的想法和詞語本意相悖？美國普林斯頓大學的研究團隊透過收集對話中雙方的神經活動，以及基於GPT-2開發的計算框架，有效地分離出了對話中的語言性和非語言性因素對大腦活動的影響，在一定程度上闡釋了對話中的詞語是如何影響我們的思維，並避免了「對牛彈琴」的發生。

人類對語言理解的多樣性

在語言的使用上，最繞不開的話題就是理解和誤解。表達的本質是希望被「聽見」，然而，就算說著同一語言，同音字，一詞多義、或者同一詞匯在不同語境下的意義變遷，都會為表達帶來難度，導致雙方理解出現歧義。也就是說，良好的溝通和理解是建立在雙方對某一語境下的詞匯表達的共識上的。比如，「cold（冷）」這個詞，既可以表達溫度，也可以表示人的性格，還可以表示一種病毒感染疾病。根據語境，‘你像冰一樣冷’既可以被理解為體溫冷，也可以被理解為性格高冷。那麽，在對話中的雙方到底是如何做到對同一詞語擁有相同的理解呢？

在大語言模型被廣泛使用之前，學界對於語境中詞語使用的精確模擬相對匱乏。早期的研究會使用數據驅動、未經調整的耦合方法（data-driven, unmediated coupling methods），例如測量被試間神經活動相似性（intersubject correlation，ISC）的強度，來測量對話雙方的共同理解程度。此前，ISC被大量用於理解不同個體在相似刺激或任務下，產生的神經活動的相似性。比如，2008年Uri Hasson團隊就使用 ISC 技術，透過分析記憶表現後的跨參與者相關性（ISC-SM），來辨識電影觀看中成功編碼與未成功編碼片段的BOLD反應，在觀眾間的相關腦區。透過對比觀眾在記憶成功與未成功片段中的腦活動相似度，研究團隊揭示了與記憶形成相關的腦區活動模式。（Uri Hasson et al., 2008）

這種技術在一定程度上揭示了表達者和傾聽者神經活動之間的關聯性，卻沒有將交流內容這一因素分離出來單獨研究。 這是由於，ISC強度可以被任何一對在被試之間共有的訊號調動。比如說，如果在面對面的交流中，ISC指數高有可能是因為交流中的詞語在雙方的理解中相同，也有可能是因為其他的非語言因素，比如音調、韻律、肢體動作、面部表情、眼神等和社交表達相關的非詞義因素。所以，該指數的強度並不能揭示交流中具體哪個特征在雙方的大腦中達成了一致，就算 ISC 指數高，也不能說明雙方類似的大腦活動是因為相同的語言內容刺激。

大語言模型在語言理解中的作用

直到最近，大語言模型（LLMs）被廣泛使用後，人們再次意識到日常交流中語境對語意理解的重要性，學界開始為對話中共同理解的腦神經基礎尋找新的解答。在大語言生成模型的機制中，透過學習大量自然語言的語料，並且將語料庫編碼成數據結構後嵌入多維空間，僅僅透過簡單的「下一詞預測」就可以生成出符合最語境的句子。這種對語言的處理和‘計算’方式，在某種程度上與人類理解語言的機制相似。

此前就有研究表明，語言模型和人類在處理自然語言方面共享相同的計算原則。 詳細來講，在人類大腦和自回歸動態語言模型（DLMs）處理相同的自然敘述時，它們共享三個基本的計算原則：（1）在詞出現之前，兩者都參與連續的下一個詞預測；（2）兩者都將其詞出現前的預測與即將到來的詞進行匹配，以計算詞出現後的驚訝度；（3）兩者都依靠上下文嵌入來表達語境中的詞匯 (Ariel Goldstein et al., 2022)。

由此，學界自然而然地產生了用大語言模型來進一步學習理解的想法，尤其是從表達者到傾聽者大腦的語言資訊傳遞： LLMs是否能構建一個明確的數值模型，用於模擬自然溝通中大腦間共享的、語境依賴資訊的傳遞？

▷ Zada, Zaid, et al. "A shared model-based linguistic space for transmitting our thoughts from brain to brain in natural conversations." Neuron (2024).

實驗方法

在最新發表在Neuron的一項研究對此進行了討論。研究招募了11對參與者（共22人）進行面對面的自然對話，同時使用腦皮層電圖（ECoG）技術記錄他們的大腦活動。ECoG是一種高時空分辨率的神經記錄技術，可以直接從大腦皮層表面記錄電訊號。

在獲得了對話時高精度的神經活動記錄數據後，研究團隊用以GPT-2為基本模型生成的上下文嵌入，構建了一個多維的語言嵌入空間。這個空間能夠捕捉詞語的語意、句法和上下文特征。接著，研究者使用這些嵌入來預測表達者和傾聽者大腦中的神經活動。他們訓練編碼模型，將嵌入對映到特定腦區的神經反應上。

▷ 圖1：用於捕獲表達者和傾聽者語言耦合的編碼模型。

主要發現

研究發現，表達者的大腦在單詞發音之前就已經形成了依賴於語境的語言內容，而在傾聽者的大腦中，這些語言內容在單詞發音之後再次出現。在面對面交流中，表達者和傾聽者的大腦響應可能由於其他變量（如面部表情、手勢和背景聲音）而耦合，這些變量在本質上不屬於語言。

透過大腦活動數據建模而成的共享嵌入空間不僅可以預測不同腦區的神經活動，還可以記錄不同時間的動態和選擇性（見圖2-B）。這些功能使得嵌入空間可以成功地預測在對話中雙方各自的神經活動。

在此基礎上，研究員使用基於表達者神經活動的數據訓練而成的數據來預測傾聽者的神經活動，然後再反過來預測。在反復的校準後，編碼模型排除了在對話中可能對理解有幫助，但是並沒有出現在語句中的非語言因素。也就是說，透過編碼模型配對對話雙方的腦部活動優於傳統的ISC方法，可以限制任何一對被觀察的表達-傾聽被試是在一對相同的、依賴於語境的語言嵌入中的。

▷ 圖2：表達者與傾聽者的腦內語言編碼表現。

不過，該實驗仍然使用ISC方法測量了表達者和傾聽者之間神經活動的相似性（圖3-C）。配對編碼實驗表明，與對話時候的資訊流一致，表達者的大腦是在「引導」傾聽者的大腦的（圖3-B）。詳細來講， 在說話時每一個詞匯被敘述之前，語言性內容就已經在表達者的大腦中出現了，此後，在該詞語被聽到之後，同樣的內容再在傾聽者的大腦中出現。 這種時間性的動勢是逐詞推進、並且僅限於當前詞語的。

除了對單個詞語的分析，嵌入空間也提取出了自然對話中文本的語言性特征（linguistic features），包括形態學的、句法的、語意的、上下文的、和從屬關系上的。 相較於傳統的非中介耦合方法 （如ISC） 和基於傳統心理語言學開發的特征對方法 （表達音素模型和句法模型） ，以大語言生成模型為基礎的框架可以支持更嚴謹的檢驗。

為了保證嵌入空間對於語言性特征的學習具有傳遞性（connectivity），研究員還評估表達者和傾聽者大腦內皮層語言網絡各區域之間的語言耦合。舉例來說，該實驗使用了在表達者的前顳葉（ATL）神經活動上訓練的編碼模型來預測表達者的顳上回（STG）的神經活動。同樣地，研究員還使用了在傾聽者的顳上回（STG）神經活動上訓練的編碼模型來預測傾聽者的前顳葉（ATL）的神經活動。這種分析產生了表達者和傾聽者大腦內語言區域對之間的滯後編碼矩陣（lag-by-lag encoding matrices）。這種交叉驗證的方法可以有效地顯示不同腦區之間資訊的時間順序和流動性。

▷ 圖3：表達者-傾聽者的腦對腦語言耦合。

此外，該實驗也評估了非語言性因素對雙方的共同理解形成的影響。這一部份，研究員采用了和先前實驗相同的ISC技術，對比計算表達者和傾聽者之間的腦部互動。和先前實驗一致，我們發現了在自然對話中，表達者和傾聽者的神經活動之間有強配對性。然而，這種分析方法無法逐詞分離對話中的語言內容。所以，能被觀察到的耦合並不具有對單詞敘述的時間敏感性。由此可見， 基於嵌入空間的方法在精確度上仍然超越傳統技術。 如果嵌入空間包括了語境依賴的詞嵌入，表達者與傾聽者之間的神經耦合度將顯著提高。

最後，該研究還探討了對話雙方的耦合度是否與對話的語言空間相關。研究表明，表達者和傾聽者的模型的權重和每一組對話之間存在關聯，但是這種特殊度在多組對話平均化之後就被減弱了。也就是說，每一組對話是針對語境嵌入空間中的一個從屬的特征組而存在偏差的。

研究意義

該研究開創性地分離了對話中的語言性和非語言性因素對大腦活動的影響，並確保了表達者與傾聽者之間的共享神經活動能夠與相同的顯著語言特征保持一致。 此外，該實驗還根據大語言模型開創性地開發出了一個計算框架 ，標誌著從未經調節的、被試間神經活動的耦合向更精確的、模型驅動的社會互動神經科學的範式轉變。

未來，研究團隊計劃進一步拓寬這項研究的範圍，將現有模型套用於其他類別的大腦活動數據，例如功能性磁共振成像（fMRI）數據。這將使研究人員能夠探查在對話期間無法僅透過皮質腦電圖（ECoG）捕捉到的深層大腦結構的運作機制。

此外，透過對比不同的神經成像技術，研究團隊希望深入了解不同大腦區域如何在不同的時間尺度和不同類別的語言內容上相互作用和協同。這種跨技術和跨區域的分析將為理解復雜的神經語言網絡提供更全面的視角，推動我們在認知神經科學領域向前邁出一大步。

[1] A shared model-based linguistic space for transmitting our thoughts from brain to brain in natural conversations. https://www.cell.com/neuron/fulltext/S0896-6273(24)00460-4

[2] Enhanced Intersubject Correlations during Movie Viewing Correlate with Successful Episodic Encoding. https://www.cell.com/neuron/fulltext/S0896-6273(07)01008-2

[3] Shared computational principles for language processing in humans and deep language models. https://www.nature.com/articles/s41593-022-01026-4