NVIDIA Research 科學家：探索基於多模態LLM 的自動駕駛智能體

2024-10-18科技

讓自動駕駛系統適應新環境和不同地區的習慣和法規是自動駕駛領域長期面臨的挑戰。NVIDIA Research 團隊提出的自動駕駛智能體 LLaDA 能夠利用 LLM 生成適應不同環境的駕駛策略和指令，為駕駛員和自動駕駛汽車提供多語言和地區交通規則的即時指導，幫助他們更輕松地在陌生的地方導航。此外，LLaDA 還能幫助自動駕駛汽車重新規劃出與當地環境更加匹配的運動軌跡，調整自動駕駛汽車的運動規劃策略。相關論文成果收錄於 CVPR 2024 。

然而，LLaDA 無法實作場景的自動辨識，且對場景描述的質素有著較高要求。盡管 GPT-4V 能夠提供這種描述，但是卻不夠準確。為此，NVIDIA Research 提出一個創新的自動化影片字幕生成框架 Wolf。Wolf 采用專家混合方法，利用視覺語言模型(VLMs)的互補優勢，能夠提升自動駕駛智能體的場景理解能力。

此外，LLaDA 通常是與使用者直接互動，並主要處理文本資訊。相比之下，自動駕駛系統則需要提供具體的位置和軌跡規劃資訊。基於這些差異，NVIDIA Research 團隊專為自動駕駛領域設計出一種多模態大型語言模型（MM-LLM）TOKEN。TOKEN 透過將復雜的交通環境轉化為物件級別的知識單元，增強了自動駕駛車輛在面對長尾事件時的規劃能力。該模型還結合了端到端駕駛模型的優勢，解決了數據稀缺和標記化效率低下的問題。相關論文收錄於 CoRL 2024 。

在上述背景下，智猩猩與 NVIDIA 策劃推出「 智猩猩公開課 NVIDIA 自動駕駛智能體專場 」，並將於10月22日以影片直播形式進行。公開課邀請到 LLaDA 論文第一作者 、 NVIDIA Research 自動駕駛方向研究科學家李柏依 進行主講，主題為【 探索基於多模態LLM 的自動駕駛智能體 】。

李柏依博士首先會重點講解 LLaDA 如何利用 LLM 生成適應不同環境的駕駛策略和指令；之後會解讀如何使用 Wolf 框架生成字幕提升智能體的場景理解能力。接下來，李柏依博士會講解如何基於 TOKEN 分解復雜交通場景提升智能體在長尾事件的規劃能力，最後會分享在自動駕駛智能體上的未來研究方向，並進行展望。