「端到端」是自動駕駛最優解嗎

2024-08-30科技

最近，「端到端」在車圈火了！特斯拉基於「端到端」的FSDV12（完全自動駕駛）方案形成的標桿示範效應，疊加入華傳聞，帶動「蔚小理」等車企和華為、地平線等服務商紛紛轉向，加碼端到端自動駕駛技術。

所謂「端到端」，其實是來自深度學習中的概念，英文為「End—to—End（E2E）」，指透過一個AI模型，只要輸入原始數據就可以輸出最終結果。套用到自動駕駛領域，意味著只需要一個模型，就能把網路攝影機、公釐波雷達、雷射雷達等傳感器收集到的感知資訊，轉換成車輛方向盤的轉動角度、加速踏板的踩踏深度以及制軔的力度等具體操作指令，讓汽車實作自動駕駛。用小鵬汽車創始人何小鵬的說法，表現得「很絲滑」，更像「人類司機駕駛」。

此前，市面上絕大部份自動駕駛系統為傳統模組化方式，即一個人工和智慧兩分天下的混搭系統：感知依靠神經網路，規劃控制則使用人類手動設計的演算法。這一系統的好處在於分工明確，發現缺陷便於分模組檢查、解決。但問題是，這種模組化的自動駕駛系統在相對簡單的駕駛任務上表現不錯，而在復雜的駕駛任務面前，其天花板顯而易見。就算是號稱遙遙領先的城市高階智駕功能，依然會有機械感，也會在匯入快速路、透過大型路口時宕機。

考慮到自動駕駛的核心挑戰是解決無窮無盡的邊緣場景，以有限人力解決無限長尾問題的成本和時間難以估量，數據化、模型化成為必然趨勢。不過，端到端，同樣是一個需要老師傅精心打磨的高難度技術活。

一方面，端到端需要海量高品質數據「投餵」訓練。與大語言模型可以在互聯網上爬取海量文字數據用於訓練不同，端到端智駕需要的視訊數據獲取成本和難度極高。以特斯拉為例，目前其FSD累計學習的人類駕駛視訊片段超過2000萬個，而這一規模的數據僅采整合本就需要50億元至80億元。

另一方面，端到端需要強大算力的支持。自動駕駛涉及雷射雷達、影像感知以及V2X車路協同等技術與解決方案。強大的算力不僅有利於即時處理海量數據，降低數據傳輸延遲，還可更好地支持面向智慧城市、智慧交通、高級別自動駕駛等全場景。然而，華為車BU、百度極越、蔚來、理想、吉利、長城、小鵬等國內企業算力增長目前均面臨較大瓶頸。

問題還在於，算力與數據的制約又會顯著影響演算法的發展。雖然國內學術界提出的端到端自動駕駛模型UniAD斬獲2023年CPVR最佳論文獎，為國內企業提供了可以參考的方向，但是在開環驗證體系、小體量樣本數據下開發的UniAD，上車還需要一定時間的工程化改造和大規模數據訓練。

此外，端到端會同時放大自動駕駛系統的上限與下限。因為端到端構建的是一個神經網路黑箱，在獲取更高上限的過程中讓渡了一部份傳統模組方案具備的可解釋性。如何在自動駕駛系統中保留可解釋性，將那些不應被逾越的規則，比如別闖紅燈，表征到神經網路中去，保證端到端能安全地落地套用、前進演化，也將是規控工程師們的重要課題。

攀登珠峰有兩條路線：一條是中國西藏的北坡，另一條是尼泊爾的南坡。不管選擇從南坡還是從北坡攀登，最終都將到達同一個頂峰。這與當前自動駕駛的發展路徑有相似之處。雖然現在還很難判定端到端就是自動駕駛的最優解或最終解，但這並不妨礙企業創新探索。畢竟端到端能夠比傳統模組化方式更好地處理極端案例，並且代表了一種減少人工編碼依賴的更高效的思路。基於這個路徑，或許自動駕駛能夠通往更高階段。（本文來源：經濟日報作者：楊忠陽）