當前位置: 華文世界 > 科技

李克強院士:沒有路側數據,訓練永不準確

2024-07-16科技

近日,在 WAIC 2024 ­ 略合作夥伴商湯科技召開的「大愛無疆 · 向新力」人工智能論壇上, 中國工程院院士、清華大學車輛與運載學院教授李克強發表了一場演講。

在為「車路雲」提供新思路的同時,他也指出了關於單車智能發展、 AI 驅動所面臨的一些問題。 RoboX 結合他在本次論壇以及 CICV 的演講,進行了梳理總結。

大模型面臨的兩大挑戰

李克強認為,迄今為止,智能汽車的技術路徑主要還是以單車自主式智能為主。但透過實踐,可以發現該方式還是有一系列的問題。

「自動駕駛領域的挑戰,遠遠不像一般人所理解的那麽簡單。」

他指出,例如目前想做大模型的平台,存在兩大問題:

一,數據體量有限,無法實作訓練數據的海量性。

二,第二數據種類不全,保證不了數據的完備性——如果數據不具備完備性,就會出現訓練不準的問題。

「例如,一家企業有十萬名工人,一千名工程師。如果你統計出九萬九千工人,把工程師統計為零;而我統計到八萬工人,以及八百名工程師,那麽顯然我的數據會更加準確。」

李克強表示,大模型的一個關鍵點在於數據訓練 數據有三個要素:海量性、完備性和準確性。

如果由單一企業負責數據,那怕數據再多,也統計不全。只有透過車路雲一體化的系統,才能真正覆蓋各家車企的數據。

另外, 路側相當於「上帝視角」,看得更遠更全,數據覆蓋更廣泛。

在李克強看來,新一代的FSD已不再是傳統的單車智能了,因為「影子模式」+「大模型」都是車和雲之間的協同。

但即便如此,若只靠特斯拉自身來做, 沒有路側數據,再多的車端數據也無法補齊數據的完備性,訓練也不會準確。

李克強稱,基於這樣的背景,智能網聯汽車國家創新中心希望整合全行業共識,提出了「雲控基礎平台」的思路。

「所謂的雲控基礎平台,就是將競爭的分開,底座打通,以一個基礎平台包含交通管理、出行服務、娛樂服務,包括自動駕駛。」

李克強認為,這樣才能夠真正做到眾源數據的匯聚,海量資訊的打通,以及時空連續對齊,對於實用化且符合高標準要求的自動駕駛AI大模型的構建、訓練與叠代,都是至關重要的。

端到端不是「神經網絡黑箱」

「端到端的定義,不是一個簡單的黑箱化神經網絡,而是全棧的神經網絡化,仍然會有感知網絡、決策網絡、預測網絡,只不過端到端采用了特征向量的方式,使得數據能夠完整傳遞。」李克強說道。

他認為,端到端方案對於數據完備性的要求更高,同樣只有實作車路雲一體化,才能確保有效訓練。

目前,在清華大學研究的端到端方案中,既有分塊模型的預訓練,也有模組整合微調。

「其中每個模組都是大模型,合起來也就是端到端。我們將按照這一邏輯來推進工作,並會率先在開放道路上進行驗證。

在李克強看來,端到端的重點是要推動主要功能模組的全棧神經網絡化,以及數據閉環的訓練。

清華團隊的工作進展

據李克強表示,清華大學團隊很早就開始在強化學習、類腦學習這些方面做探索。

其中一項探索是 「關於交通參與者行為的長時域預測」

他介紹稱,交通行為預測是自動駕駛決策控制的前提。然而,由於交通環境的復雜性,現有的預測方法存在一系列問題,如網絡結構復雜、計算成本高、中間變量多以及資訊損失大等。

針對這些問題,清華團隊提出即時空分離的預測網絡結構——將周車軌跡、路網結構資訊壓縮為動態特征量,並在此過程中實作時空模組之間的相互解耦,使得各模組更易於組合或替換,避免不必要的中間態變量,獲得更強的場景表征能力。

該團隊也將強化學習類腦智能運用在自動駕駛中:「‘強化學習求解’套用到工業控制中,有一個很大的挑戰,就是所謂的‘過估計’。由於有貝爾曼算子,使我們的 算子在叠代過程中的誤差累積增大。在自動駕駛這樣復雜的控制系統裏,這些問題尤其嚴重。

就此,清華團隊提出了DSAC分布式的柔性的自動判斷準則。根據SAC演算法,看到強化學習演算法中的最大化選擇器在每次選擇評估行動時都使用同樣的Q值,將其增加到若幹個分布式以後,它可以變成一個分布式貝爾曼算子。 該思路可以讓 估計的誤差得到一致。

「用了這套方法以後,我們可以在資訊的即時性,包括準確性、估計偏差方面,相比現有的方法都取得了顯著的提升。」

單車智能和車路雲並不矛盾

「單車智能和車路雲一體化完全不矛盾,我們只有把單車智能做好,才能往上發展,才能做到車路雲一體化。」

李克強認為,單車智能是車路雲一體化的基礎,而車路雲一體化是單車智能的升級。它們各有優勢、各有結合。

他指出,單車智能之所以需要車路雲一體化,是因為目前單車系統的自主決策、全域效能難以最佳化,但可以利用車路雲一體化做到,避免單車智能的立體特征造成交通事故和擁堵。

另外,智能汽車的發展最終還是要拼算力,車載算力從成本、使用條件角度來看還是受到限制。

「我們可以把車載計算任務解除安裝,透過一體化的方式實作。」 李克強提出,單一企業很難做出真正意義上的大模型,主要原因還是上述的數據完備性問題。

用了車路雲一體化的方式,可以從自主車輛和路側獲得更加完整的數據模式,能夠覆蓋更加廣泛、交通場景更加復雜、數據種類更加完備,所以數據種類完備不是一家企業一種方式能夠做的,而是協同式的,就是從各方獲取的。

「我們都在談BEV+Transformer。如果在未來,這樣的模型訓練不僅是車端,還有路側,就更容易形成數據閉環中具有影子特征傳遞構建的自動駕駛端到端模型,擴充套件上限能力。」