當前位置: 華文世界 > 科學

僅需5%訓練樣本達到最優效能,清華大學研究團隊釋出條件去噪擴散模型SPDiff,實作長程人流移動模擬

2024-03-12科學

大數據文摘授權轉載自HyperAI超神經

作者:陳弘毅

編輯:李寶珠,三羊

人流移動模擬 (Crowd Simulation) 是在特定情境中模擬大量人員移動的過程。這項技術主要套用於電腦遊戲、城市規劃、建築設計以及交通組織等領域。例如,模擬人群在不同條件(如人群密度、流量等)下在建築物內的移動,幫助決策者評估並最佳化建築設計,以提高應急響應和疏散效率。

盡管該領域已經取得了大量的研究進展並且發展迅速,但運動、感覺能力和一系列心理因素的影響使得個體行為在不同情況下變得復雜。由於這種異質人群的高計算復雜性,存在許多不同的挑戰,限制了人群模擬的真實性。

來自清華大學電子工程系城市科學與計算研究中心、清華大學深圳國際研究生院深圳市泛在數據賦能重點實驗室、鵬城實驗室的研究人員,近日在 AAAI 2024 發表論文【Social Physics Informed Diffusion Model for Crowd Simulation】,提出了一種新穎的條件去噪擴散模型 SPDiff,該模型能夠有效地利用互動動力學,透過社會力引導的擴散過程來模擬人群行為。

受多粒子動力系統的運動特性的啟發,模型同時整合了等變性的強歸納偏差,以增強模型對變換的泛化能力,從而獲得更好的效能。此外,模型進一步開發了適用於擴散模型的長程訓練演算法,以保證模型結果長程的物理一致性。該方法將刻畫人流移動性質的社會力模型等社會物理知識,嵌入到深度學習模型的設計中,實作了知識-數據協同驅動的研究範式。


論文連結:

https://arxiv.org/abs/2402.06680

程式碼連結:

https://github.com/tsinghua-fib-lab/SPDiff


人群運動的異質性和多模態性

行人移動模擬是在特定場景中微觀模擬大量人員移動的過程,主要關註群體互動對人群移動的影響。這項技術在城市規劃、建築設計和交通管理等領域具有主要套用。例如,對人流在公共交通轉車站(如機場和火車站)的移動進行真實的模擬,有助於分析在面對大量乘客流量時轉車站的效率和安全性,並進一步促進對建築空間設計的最佳化。

社會力模型的公式表示:終點驅動力 fdest,行人斥力 fped,環境和障礙物的斥力 fenv

人群運動具有兩個核心特征,即異質性 (heterogeneity) 和多模態性 (multi-modality)。

首先,人群中的個體行為是異質的,受到個體偏好和周圍環境的影響,人類會產生復雜的時空軌跡。例如,在購物中心中,行人會根據個人興趣和購物中心的布局以不同的速度移動,同時遵循不同的路徑。這會導致人們產生隨時間變化的多樣且復雜的運動模式,從而產生真實的軌跡。

早期的研究方法嘗試在社會物理學的研究領域,以基於物理規則的模型來解釋行人運動背後的機制,進而從異質特性背後抽離出行人運動的本質特征,例如社會力模型。這些方法存在模擬軌跡不夠真實自然的問題。

其次,人類行為固有的不確定性會導致行人軌跡的不確定性,通常稱為人類移動的多模態性。早期的研究對軌跡的隨機性分布做出了簡化的假設,例如使用高斯分布來建模多模態性,後續的方法利用生成模型,如生成對抗網絡 (GANs) 和變分自編碼器 (VAEs) 來生成多模態的樣本。

近年來,擴散模型作為一個熱門的生成模型,已經在許多生成任務中展現出最先進的效能,為了實作真實模擬,本研究全面考慮了以上所討論的兩個需要關註的角度,希望利用擴散模型在建模復雜多模態分布時的優異效能,並利用以社會力模型為代表的社會物理知識來指導本研究擴散模型框架的設計。


擴散模型 + 多幀推演訓練演算法:實作長程移動模擬

與逐步重構觀測數據分布的擴散模型不同,社會力模型將人群的運動化為一個多粒子動力系統,並且在每個時間幀中直接對每個行人的觀測數據施加物理約束。因此,將這種知識融入在去噪中間過程中的含噪數據上的操作是困難的。


同時,行人移動模擬涉及多個行人和多個時間幀的數據生成任務。現有的方法通常利用擴散模型,一次性生成整個序列。然而,在本工作的問題中,一次性生成整個模擬軌跡無法在每個時間幀對每個行人結合社會力模型進行有效的引導。

此外,由於生成數據的高維性質,一次性生成可能會遇到效率和有效性問題。因此,對於現有的擴散模型框架來說,實作長期模擬並同時保持模擬結果的穩定性是一個具有挑戰性的問題。

為了解決上述挑戰,本研究提出了一種用於行人移動模擬的條件去噪擴散模型。該模型具有以下特點:

* 包含一個人群互動模組, 從社會力模型中獲取見解以指導去噪過程;

* 整合了從多粒子動力系統中匯出的等變性質,增強了模型在變換中的泛化能力並最佳化了數據效率。

方法整體框架

如圖所示,SPDiff 使用一個圖網絡 (graph network) 來建模場景。在圖中,每個行人透過有向邊與視野中的附近行人和障礙物建立相互作用關系。提出的擴散模型利用圖的節點和邊資訊、歷史狀態和行人終點資訊作為條件輸入,並利用擴散模型采樣行人未來加速度在下一個時間幀的分布,進而更新下一時刻所有行人的狀態。叠代這一過程即可實作任意時長的行為模擬。

在擴散模型去噪網絡的設計上,為了把人類移動的物理知識融入擴散模型,我們將神經網絡模型建立在原始社會力模型的基礎上,並替換其核心項和,終點的牽重力可以由公式直接計算得到,在此之上使用圖神經網絡 (Graph Network, GN) 演算法實作從行人狀態到社會力預測的過程。

此外,行人互動具有等變性,即互動作用會隨著對行人構成的類粒子系統的變換(如平移旋轉等)而發生相同的變換或不變。為了融入這樣的物理特性,互動資訊透過一系列等變圖摺積網絡層 (EGCL) 進行處理,以提升模型的訓練效率和物理一致性。

最後,每位行人的歷史移動狀態透過長短時神經網絡 (LSTM) 處理,引入歷史處理模組歸因於人類傾向於避免過多改變運動狀態以節省能量的先驗認知。

擴散模型的參數化去噪神經網絡設計

為了實作具有物理一致性的長程移動模擬,本工作進一步設計了一種多幀推演訓練演算法。如下圖所示,擴散模型在訓練過程中在定義的時間視窗內模擬軌跡,並計算累積誤差作為損失函數以梯度下降更新模型參數。該學習過程對模型在長程模擬中忽視物理一致性的短視行為進行懲罰,以此讓模型獲得長程模擬的泛化性。

所提多幀推演訓練演算法示意圖


實驗結果:僅需 5% 訓練數據量,達到最優效能

為了評估本文模型的有效性,本研究引入了兩個真實世界數據集:GC 數據和 UCY 數據集。這兩個數據集在場景、規模、持續時間和行人密度上都有所不同,可以用來驗證模型的泛化效能。

該研究將基線方法分為三類:

* 基於物理的方法(社會力模型 SFM、元胞自動機 CA)

* 純數據驅動的方法 (STGCNN、 PECNet、MID)

* 物理知識融合的方法 (PCS、NSP)

對比實驗驗證了所提方法相對於最先進基線方法的顯著效能提升,從微觀指標 (MAE、DTW) 和宏觀模擬真實性指標 (OT、MMD) 上看,提升振幅範圍為從 6% 至 37%。

主實驗UCY數據集下效能對比:加粗處為最佳效能,底線處為次佳效能

為了進一步探究每個時間幀中的模擬精度表現,本實驗檢查指標隨模擬時間幀的變化情況。可以看到,指標隨時間會表現出交替上升和下降的振蕩變化,即出現多峰現象。上升可以歸因於長程模擬期間累積產生的誤差,下降可以歸因於這個三個模型都會將行人「牽引」至終點處。

整體來看,本文提出的方法相比其他兩個基線能在很長一段時間裏持續地保持較低誤差,這體現了本方法模擬的精度。

指標隨模擬時間幀的變化情況:使用數據集UCY和GC,使用OT和MMD作為指標

本研究進一步探索了方法中每個關鍵設計對效能提升的貢獻,分別驗證在沒有社會物理知識融合下、沒有歷史處理模組下和沒有多針推演訓練演算法下模型的表現。

下圖的實驗結果表明,任何一個元件的刪除都會導致模型效能的某種程度的下降,這證明了每組設計的有效性。註意到當移除與社會物理指導相關的設計時,模型效能損失最大,體現了在人群模擬中融合社會物理知識的必要性。

模型不同模組的消融實驗,NC 表示不收斂

最後,本文研究等變設計在人群互動模組中引入的歸納偏差對效能的影響。在將等變圖摺積層退化為非等變網絡時,探究不同訓練數據量和訓練周期下模型的效能變化。可以看到,如圖所示,使用等變圖神經網絡的模型在幾乎所有的訓練樣本比例下始終優於使用非等變模型。即使只使用訓練數據的 5%,原始的模型仍然能保持優異的效能。

具體而言,在訓練樣本比例為 5% 的情況下,SPDiff 的 MAE 指標相對於 100% 訓練樣本比例時幾乎沒有下降,最大降幅僅為 2.5%。與非等變設計相比,等變設計在 MAE 指標上提高了最多 13.2%,在 OT 指標上提高至多了 22%。這表明得益於等變設計的幫助,本文提出的模型只需借用少量的樣本就能獲取相當於大量數據訓練後的泛化能力。

MAE 在不同訓練樣本比例下的變化情況


結語

本文提出了一種新的基於條件去噪擴散模型的人流移動模擬方法,透過物理引導的條件擴散過程,該模型能夠有效地利用人群移動的已知狀態資訊進行行人移動模擬。

受到著名的社會力模型的啟發,所提出的等變人群互動設計和多幀推演訓練演算法分別解決了宏觀和微觀上模擬的真實性以及長程模擬的穩定性挑戰。該方法將生成式建模引入人流移動的相關研究,探索了社會物理知識和生成式深度模型的結合手段。


租!GPU算力

新上線一批4090/A800/H800/p00

特別適合企業級套用

掃碼了解詳情☝