別再用DDPG了！吉林大學最新無人機通訊和網路GAI框架！

2024-04-28數位

無人機通訊亂象，演算法效能堪憂，吉林大學新框架破局？

無人機通訊技術近年來獲得長足發展，在物流、勘探、監控等領域得到廣泛套用。行業內也暴露出諸多問題和挑戰。頻段使用混亂是其中之一，無人機通訊所使用的頻段缺乏統一規範，不同國家和地區存在分歧，給跨境套用帶來障礙。各國對無人機通訊的監管政策也參差不齊，有的過於寬松，有的則過於嚴格，制約了行業健康發展。

深度強化學習是解決無人機通訊和控制問題的重要手段。傳統的DDPG演算法由於其固有缺陷，在動作維度較高或數據量較少的情況下，效能會大幅下降。業內開始轉向其他演算法，如SAC、TD3和PPO等。這些演算法在訓練穩定性、收斂速度和最終效能上都較為優秀。

SAC演算法的全稱是Soft Actor-Critic，它將強化學習問題建模為最大熵過程，透過最大化期望報酬與熵之和來尋找最優策略 。這種方法使得演算法在探索和利用之間達到更好平衡，避免過早收斂到次優解。SAC演算法還引入了兩個獨立的Q函式來緩解過度估計的問題，從而提高了訓練穩定性。

TD3演算法則是在DDPG的基礎上做了改進，主要有兩個創新點:一是引入目標策略雜訊，二是采用雙Q學習。 前者透過在目標動作上添加雜訊，使得演算法更容易逃離局部最優；後者則是訓練兩個Q網路，取其中較小值作為目標Q值，從而減少了過度估計的風險 。TD3演算法在很多連控制任務上都取得了非常好的表現。

PPO演算法屬於策略梯度類演算法，它透過限制新舊策略之間的差異，來確保新策略的效能不會惡化 。這種方法使得PPO演算法在策略更新時更加穩定，收斂速度也更快。PPO還支持並列采樣，可以充分利用多核CPU和GPU的計算能力，進一步提高訓練效率。

除了上述幾種主流演算法外，深度強化學習領域還有很多其他值得關註的方向，如高難度探索、稀疏獎勵、數據效率等。不同演算法在這些方面也會有所側重，需要根據具體問題的特點選擇合適的演算法。比如，如果是連控制任務，動作維度較高，數據量充足，那麽TD3或PPO會是不錯的選擇；如果是離散控制任務，SAC-Discrete演算法則更具優勢。

在無人機通訊和控制領域，吉林大學最新提出了一個創新性的GAI（Generalized Aerial Intelligence框架。該框架旨在解決無人機通訊中的頻譜管理和傳輸最佳化等關鍵問題。

GAI框架的核心思想是將無人機通訊建模為一個多智慧體強化學習問題。每個無人機代理都需要根據當前環境狀態選擇合適的頻段和傳輸參數，以最大化整個系統的總體效能。 與傳統的集中式最佳化方法不同，GAI框架采用分布式的方式，各個代理透過相互協作來達成最優決策 。

在具體實作上，GAI框架包含了多個模組，如環境模擬器、智慧體訓練器和決策執行器等。環境模擬器負責構建無人機通訊場景，考慮了多個因素的影響，如地形、天氣、幹擾源等。智慧體訓練器則基於多智慧體強化學習演算法，訓練每個無人機代理的策略網路。決策執行器將訓練好的策略套用到實際系統中，指導無人機選擇最優頻段和傳輸參數。

該框架的一個重要創新點是提出了一種新穎的頻譜圖估計方法。傳統方法往往需要對整個頻譜進行掃描，計算量大且即時性差。 GAI框架則利用智慧體之間的協作，每個代理只需估計頻段，然後透過資訊交換來重建整個頻譜圖，大大提高了估計效率 。

除此之外，GAI框架還設計了一種基於深度強化學習的傳輸速率最佳化演算法。該演算法能夠根據當前的通道狀態、幹擾水平等因素，自主調整調變解調方案、編碼率等傳輸參數，以獲得最大的吞吐量。

為了驗證GAI框架的有效性，吉林大學團隊進行了多個案例研究。其中一個案例就是上述的頻譜圖估計和傳輸速率最佳化。實驗結果表明，與傳統方法相比，GAI框架在估計精度和傳輸吞吐量上都有顯著提升，平均提高了30%以上。

GAI框架為無人機通訊和網路領域帶來了全新的解決方案。它突破了傳統集中式最佳化的瓶頸，提出了一種分布式的多智慧體強化學習範式。 透過智慧協作，無人機可以高效分配頻譜資源，最佳化傳輸效能，從而推動整個行業的發展 。

GAI框架絕不僅限於無人機通訊這一領域。它所倡導的分布式智慧範式，可以廣泛套用於物聯網、智慧交通、智慧城市等諸多場景。 只要存在多個智慧體需要透過協作來完成復雜任務，GAI框架就能夠發揮作用 。

GAI框架也面臨一些挑戰和不足。比如智慧體之間的通訊開銷如何控制？如何保證系統的魯棒性和可解釋性？如何處理異構智慧體的協作？這些都需要進一步的研究和探索。

我們有理由相信，隨著人工智慧和無人機技術的不斷發展，GAI框架必將在更多領域大放異彩，為構建智慧化的未來社會貢獻自己的一份力量。