當前位置: 華文世界 > 科技

出租司機先別慌,智駕行業的程式設計師們會更早被 AI 搶飯碗

2024-07-17科技

每項新技術從誕生到推廣,會經歷各個不同的階段,也會面臨各種不同的聲音。研發者為了找到技術最優解,可能會放棄已有多年的努力;而商業機構則更偏重於判斷技術落地的時機,以在合適的時機謀取最大的利益。

關於智慧駕駛,國內各主機廠商們就一度有過很深的認知分歧。支持者認為它可以帶來「遙遙領先」的體驗,而反對者則丟擲過「臭搞技術的」、「自動駕駛都是忽悠」等言論以表達不屑。

2024 年,隨著基於「端到端」的特斯拉智慧駕駛軟體 FSD V12 版本正式推播,中國汽車廠商們對智慧駕駛的態度,終於開始收斂了。

以新勢力造車代表蔚小理為例,各家對於「端到端」技術的追逐顯然開始發力了。

小鵬提出將端到端的大模型引入智駕系統,並表示今年要在智慧化和訓練數據上投入 42 億元,目標是以後可以做到「兩天一次內部 OTA」。這是過去依靠人類維護數十萬行智慧駕駛程式碼的工作方式所不敢想象的效率提升。

蔚來也於近期重組了智慧駕駛研發部,將傳統的感知和規模團隊合並為大模型團隊,核心也是推動基於神經網路的範式叠代。

甚至過去被調侃為「摳廠」的理想,也在近期頻繁為智慧化研發造勢。CEO 李想親自為「端到端」研發月台,搬出諾貝爾經濟學家的快慢思考理論,以說明自家團隊找到了解決自動駕駛 conner case 的方向。

那麽,讓各家廠商從非共識走向共識的端到端,為什麽會有這麽大的魔力?它如何改變了智慧駕駛行業的範式,又將帶來怎樣的機遇和調整?

智駕的 GPT 時刻已經來過了

國內各廠商們迅速形成共識的重要原因,是特斯拉率先交出了一份讓人羨慕的端到端答卷。

今年 3 月,特斯拉正式推播了智慧駕駛軟體 FSD V12.3 版本。這個版本的最大改變,就是把整個智駕系統工作的動力,從人類編寫的程式碼,切換成了基於神經網路的 AI 大模型。馬斯克用「Video in to Control out」來形容這種新的工作範式,即:AI 根據自己「看」到的路面資訊,直接輸出駕駛操作,也就是業界常說的「端到端」(End-to-End)。

上個月,何小鵬在加州體驗了 FSD V12.3.6 版本。用他的話來說,FSD「很多路況處理都很絲滑」。這正是 AI 神經網路相比於程式碼驅動的最大優勢所在:在不同城市、不同路況下,大幅提高智駕系統的泛化學習能力。

轉譯成國內消費者們更熟悉的廣告行銷話術就是:全國(全球)都能開。

華為在去年9月喊出「全國都能開」的宣傳語 | 來源:極客公園

當然,這個結論在現階段還只是一個美好的心願。在實際操作過程中,還需要數據、演算法、算力等 AI 基礎設施的全力加持和訓練,才可能接近「AI 變得和人類駕駛員一樣聰明」這個目標。

但對於同行們來說,FSD V12 版本意義重大。它驗證了神經網路真的可以取代人類編寫的程式碼,甚至可以做得更好更高效。

這意味著不用再等 N 年,智慧駕駛行業裏的 ChatGPT 時刻其實已經到來了。想想阿裏張勇曾經說過的那句話:所有軟體都值得用 AI 重做一遍。FSD V12 正是給了同行一個新的方向和信心:所有智駕的技術棧,都可以用端到端重做一遍。

在 FSD V12 beta 版本釋出的時候,馬斯克說過,這一版本把前一版本的 30 萬行程式碼壓縮到了 2000 行,相當於不到百分之一的水平。

新技術棧裏的智駕比拼,不會演變為比誰人更多的反創新內卷遊戲。如果 AI 的效率真能達到何小鵬所說的兩天一次內部 OTA,那逐條寫規則、改 bug 的人海戰術就可以宣布徹底過時。

所以智駕行業還需要那麽多程式設計師嗎?筆者無法給出準確的答案,但可以肯定的是,智駕程式設計師的工作內容也將發生一系列改變。只會寫 if else 規則的程式設計師,大機率會早於出租車、網約車司機們被 AI 取代。

困在數據裏

在投資機構辰韜資本上個月釋出的【端到端自動駕駛行業研究報告】中,30 余位自動駕駛行業受訪者,只有 13% 表示對端到端技術持相對謹慎的「觀望」態度,其余均表達了更積極的「預研」甚至「全力投入」的態度。端到端已經在行業從業者裏成為了共識。

但事實上,目前還沒有任何一家企業(包括特斯拉在內),可以做到「原教旨主義端到端」。也就是把自動駕駛的所有環節都集中在同一個大的模型裏,真正達到和人類一樣的「輸入視覺訊號,輸出踏板和方向盤操作」。

大部份國內主機廠現階段所做的核心努力,是打通感知和決策模組。這其中的關鍵,就是取消模組之間的人工定義結果,更多用特征向量傳遞無失真資訊。

端到端自動駕駛的架構演進示意圖 | 圖片來源:辰韜資本

在端到端之前,傳統自動駕駛架構來源於機器人領域,分為感知、規劃、控制等不同模組。不同模組由不同團隊開發,在模組與模組之間,主要透過人工定義的介面傳遞資訊。舉個最簡單的例子,對於車輛是否壓線行駛這個現象,在傳統感知模組裏就可以用最簡單的電腦二進制語言進行表征。

而打通感知和決策模組的最大好處,就是可以涵蓋更多現實世界中規則無法準確描述的「灰度場景」。例如,當你開車時,並不需要知道前車精確的行駛速度,或者它是否壓線,只需要關註相對位置變化就好。

在這個基礎上,基於生成式 AI 的理論,期待神經網路模型也能在大量輸入後產生智慧湧現,成為 AI 智慧體。

這一切的基礎都來源數據,也就是「餵」給模型的訓練素材。但是,和基於文字的語言大模型不同,智駕模型並不容易找到足夠的公開視訊數據作為訓練素材。

前述【端到端自動駕駛行業研究報告】顯示,目前規模最大的公開數據集只有 1200 小時數據。而根據馬斯克 2023 年的說法,特斯拉在端到端的初期,就投入了近 4 萬小時的視訊進行訓練。

相比其他車企,特斯拉數據的優勢主要就在於量產車多。

目前,特斯拉在全球共交付了超過 600 萬輛汽車,而在中國積極布局智駕的新勢力裏,量產車的數量只是特斯拉的零頭。再加上一貫的極簡 SKU 和全量預埋的智駕硬體,讓數據收集變得更加容易。

國內此前的常規做法,通常是依靠人工獲取道路資訊。但是,要訓練出一個聰明的端到端模型,也需要盡量涵蓋足夠多邊緣場景(conner case)的數據。由於邊緣場景的出現非常隨機,有廠商曾經表示,僅靠人工數據采集,只能得到大約 2% 的有限數據。

此外,和特斯拉相比,國內廠商往往有著更復雜的 SKU。而不同車型之間,由於車輛尺寸、傳感器布局等不同,模型中的相關參數也需要重新進行對齊。

以華為系為例,鴻蒙智行過去一年多的時間裏展現出了極強的終端銷售能力,但對於華為車 BU 服務的不同品牌、不同型號的車型來說,端到端落地後仍然需要工程師進行對齊和交付工作。對於有 2 個品牌 9 款車型的蔚來來說,同樣如此,他們把整合團隊重組到了交付團隊中。

在Sora釋出後,馬斯克發推表示特斯拉用AI模擬真實世界駕駛 | 圖片來源:X截圖

有一種觀點是,以 Sora 為代表的文生視訊類產品有可能成為端到端模型的素材來源。但哪怕對馬斯克來說,用 AI 生成的內容訓練 AI,也還沒有得到公開認可。畢竟數據的數據對於模型訓練太重要了。要知道,一向對人力成本極致「摳門」的馬斯克,當年也在紐約雇了 1000 人團隊,來為特斯拉的道路視訊數據進行標註。

別被馬斯克「帶溝裏」

聽起來,轉向端到端是一個自然而然的事,但刪除 30 萬行程式碼,對過往組織架構打散重組,絕對不是一個容易做出的決定。事實上,連馬斯克也是半撞大運的走上了這條路。那個在 2022 年底第一次向他提出要學習 ChatGPT 搭建智慧駕駛神經網路的工程師,差一點就被老馬調去解決 Twitter 收購後的其他問題了。

訓出了端到端模型,相應的支持體系(包括算力等)也要足夠高效。蔚來智慧駕駛研發副總裁任少卿在接受【騰訊深網】采訪時,表示如果沒有基本能力就強行上端到端,就等於在用「毒藥」。

他說:「如果你原來的程式碼架構足夠清晰,你的(debug)測試量可能只有 1%。原先你花三天重新測 1%,現在不好意思,你花三天要重測 100%。所以你的數據驗證體系效率要足夠高。」

但是千萬別直接被特斯拉帶到溝裏,端到端此刻只是證明了它具備提高工作效率的可能,但並沒有證明它就是通往自動駕駛的最終解法。

這一點和業界關於 Scaling Law 能否通向物理世界 AGI(通用人工智慧)的認知是一致的:可以肯定,生成式人工智慧可以具備更高的智慧,但是否可以理解物理規律,並在自動駕駛、機器人等領域套用,學界尚無定律。在【端到端自動駕駛行業研究報告】,有超過一半的從業者不認為端到端是自動駕駛技術的終局解決方案。

對於自研智駕的主機廠來說,現階段最務實的做法,還是依托端到端讓智駕能力多快好省地落地。至於智駕軟體訂閱這件事,也許還需要更長的路。畢竟在中國市場上,硬體往往比軟體和服務好賣。

當然,大機率也沒有那麽多人想成為馬斯克那樣的創新賭徒。放著好好的廉價車型不研發,去豪賭 Robotaxi,釋出一推遲市值能跌上千億美元。更多的普通玩家,只是希望搭載了端到端的智駕軟體,能幫助硬體賣得更好。當然,如果還能順便賣得更貴,那就是最美妙的事了。