當前位置: 華文世界 > 科技

理解AI,成為極越

2024-04-01科技

極越AI DAY 2024這場活動應該算是這幾年公開汽車活動中最硬核的一場。

百度智能駕駛事業群組首席研發架構師、IDG技術委員會主席王亮講了百度的VTA基礎大模型;百度副總裁尚國斌解析了百度LD如何利用自動駕駛視覺感知大模型生成車道級導航地圖;百度語音首席架構師賈磊則詳細說了影片語音融合、多合一、端側大模型的創新套用。其中的技術細節甚至可以讓很多汽車媒體感到「燒腦」。

不過這場活動中,可以看到極越CEO夏一平是「高度興奮」的,雖然他並沒有過多地講解極越產品、只是釋出了極越 V1.4.0版本,但是整場釋出會的金句不斷:

比如,「只有以AI來驅動,才算是真正的智能車」;

比如,「(極越01)它不僅是全球首台AI汽車機器人,也是行業真正意義上的第一台AI CAR,是智能化時代的標桿產品,沒有之一」;

還比如,「極越依然是中國唯一,全球唯二,用純視覺,實作全域高階智駕的品牌,另一家是特斯拉,我們也非常期待特斯拉的FSD盡快在國內落地,大家可以對比一下誰更好用」;

再比如,「2024年,如果誰還沒有落地‘智駕全國都能開’,誰就一定會在智能化浪潮中掉隊」。

從夏一平的這些話語裏面,你完全能察覺到他對極越未來的篤定,以及對極越選擇大模型技術路線的自信。

而且夏一平的觀點中,他尤其強調AI大模型對汽車行業的改造和顛覆,包括在他的發言和采訪中,提及AI、大模型多達五六十次。在他看來,驅動汽車未來發展的就是AI、就是大模型。

「從整個行業的發展來看,AI+或是大模型+,跟整個汽車產業的深度融合,不僅僅給汽車產業帶來新的改變,對人形機器人的發展也會有促進作用。」夏一平說,「我覺得未來對於AI有無限的可能,不管大模型加什麽,對未來創造更多新的不管是產業發展也好,還是科技發展也好,都有非常大的驅動力。」

夏一平的這一觀點其實和輝達汽車事業部副總裁吳新宙在GTC上的演講大致相同。

吳新宙認為,汽車行業正在從軟件定義汽車走向人工智能定義汽車,這主要有三個因素在驅動:1、軟件定義汽車已經無處不在了;2、自動駕駛堆疊的轉變,會進入到端到端的人工智能堆疊;3、生成式人工智能的推動。

然而對於夏一平來說,目前他的苦惱在於,似乎汽車行業把「AI大模型」這幾個字講的太輕松了,讓「AI大模型」成了行銷詞匯,並沒有讓消費者有真正的體驗,這也使得極越01在市場上面臨很多的不理解。

「當前,許多大模型其實只是一個噱頭,很多人也不清楚大模型具體是什麽。大模型是一個概念,是一種AI學習並逐步成長的計算方法,不同的演算法有不同的模型,有語言大模型、感知大模型、端到端大模型。

套用於汽車上的大模型,最主要的區別在於上車體驗,極越的大模型上車體驗在全中國甚至全世界做得是最好的,比如最新的1.4.0版本功能,目前市場上看不到第二家。」夏一平對此很自信。

夏一平還有一個觀點是:「關於三電技術,我認為今年可能已經走到盡頭了。想在三電方面拉開差距幾乎是不可能的,無論是電池、充電、電機,現在都越來越同質化。真正能夠突破、贏得市場的,只能是看智駕能力的高低,以及智能化體驗的優劣。

整個世界都在向著AI方向變化。我們會被AI的產品所圍繞。所以,如果你的車不夠智能,不是AI,會讓人覺得已跟不上時代。」

由於大眾對AI的不理解,更多人依然在比較產品配置、產品參數,因此夏一平說他現在的工作可能更像是一個科技的布道者,天天到極越的展廳和使用者交流、去賣車,也直播智駕,是一個很真實的狀態。

但也正因如此,外界所看到極越和夏一平眼中的極越完全是不同的,一個外界以為姍姍來遲、但在極越自己看來,卻是極具前瞻性的極越。

夏一平毫不隱晦地說,很多車企挖走了百度的工程師、也用8295芯片,但是從他角度來看極越現在在AI智艙方面做的事別家做不了,並且不是因為芯片的問題。

「在智能汽車的時代,核心的競爭力是軟件架構和電子架構,在這些方面,極越可以說是領先行業兩代到三代。」他在專訪中表示,極越是中國第一家整車做SOA化(面向服務的架構)的公司,讓車輛對各個下層模組的能力有更好的跨域排程,實作底層作業系統所有域控全時雲端更快、更安全的FOTA體驗,還包括行業首個SOA化艙駕融合,形成系統級的安全冗余。

「這些開發難度很大,一開始全公司都做崩潰了,但我們堅持做下來了。極越擁有全車冗余環路的千兆乙太網路作為骨幹網絡,承載AI能力,實作全域融通、端雲融通的整車電子電氣架構。」他補充說,現在很多車還在用高速CAN、Flexray總線,面對大數據量、高並行的需求根本沒辦法,比如行駛時使用網絡攝影機卡幀那都是很容易發生危險,但是極越在2021年開發首款車型的時候就已經開始考慮領先的電子電氣架構和軟件架構了。

夏一平的思考路徑裏面提出,從AI叠代到軟件叠代,可以把大模型看作一個OS,這些是冰山上可以看到的,而再從底層OS到硬件SoC、電子電氣架構的艙駕融合,這些都是冰山下的底層,而極越做的是從智能汽車的底層來重新架構。

把大模型視作一個全新的OS系統,這是夏一平在汽車產品上提出的新邏輯,也很符合當下AI領域的技術發展邏輯。

夏一平舉了一個比較簡單的例子,在APP套用時代,會先考慮把APP呼叫出來,放到Launch界面,然後再點選、搜尋或者尋找,整個流程是很復雜的,但是在大模型時代,直接透過語音或者指令方式就可以完成,大模型可以直接給出你需要的答案,所以大模型就是一個全新的OS。

「APP互動是上一個時代的產品、大模型可以解決所有的事情、語音互動是新的方式,」他說,「我們現在團隊的基本工作原則是——一定要用模型的思路來解決。」

而且夏一平說,當你的手機是AI手機、電腦是AI電腦,你還會用傳統的汽車嗎?他的言下之意是,當AI在手機、電腦這些日常器材中普及之後,汽車也必然會AI化,這和智能電話時代的邏輯是一樣的。現在的問題只是在於,極越如何在AI大模型這條路上走得更遠。

他說,極越早在2021年就開始規劃和部署AI大模型。而且現在極越基本就是雲端訓練、端側部署,端側再做最佳化,可以減少對網絡的信賴,以實作高效能和低延遲。更重要的是,極越背後是百度的賦能,百度在AI大模型上不僅擁有經驗,還有數據和算力,2.2EFLOPS的算力、大規模的自動駕駛車輛收集路面優質數據、百度的文心一言每天都在被使用,這些都支持了大模型的快速叠代。

這次極越AI DAY 2024上釋出的百度Apollo自動駕駛視覺大模型VTA Net基礎大模型就提供了靜態檢測、時序跟蹤、即時建圖、場景理解等能力。這個大模型被定義為「基礎模型」,一方面是讓極越純視覺高階智駕能力得到提升,另一方面則是基於大模型打造了智駕數據生產線、和LLM(大語言模型)一起做自動駕駛數據索引,還能透過生成式AI技術,讓百度也具備高效處理長尾數據的能力——而不用再去專門找Corner Case。

同樣,基於自動駕駛視覺感知大模型讓百度LD車道級導航地圖的生產也變成了自動化,實作端到端地圖生成,這樣可以在一天以內生成一個城市的車道級導航地圖。這大大提升了百度LD地圖的覆蓋率,也讓極越只要在有LD地圖的城市就能實作PPA(點到點領航輔助)功能。

很快,百度影片語音融合的多模態互動方案也將上車,車載端側語音辨識大模型將在極越車端部署。百度語音首席架構師賈磊就表示:「更超強的技術一定是端側大模型,讓車機在任何網絡環境下,都能快速響應使用者互動需求並解答車輛相關操作的問題。」

「我們的叠代速度非常快,全年AI模型叠代次數達到324次,而且是真正上車的模型,基本平均一天就有一個模型上車。」夏一平對極越在大模型上的能力相當自信。而且他斷言僅以智能駕駛而言,到今年年底,頭部的智能駕駛玩家和第二梯隊就會拉開巨大的差距,因為AI數據叠代的飛輪一旦起來之後,成長是非常快的,不會給後來者趕超的機會。

由於驅動極越產品力提升的是大模型,而大模型本質上是一個OS,是一種體驗,而不是像其他車那樣看配置表清單就能得出結論,這反而使得極越在銷售端遇到了問題。

「和理想最近的反思有點相似,以為把車造出來就是1-10的過程,其實發現還是0-1的過程。我們在前期的目標使用者找得不夠精準。當要把車賣給非目標群體的時候,你會發現很困難,而當我們把車賣給科技愛好者的時候,甚至都不用介紹車的優勢,他們就會買單。」夏一平聊到極越目前的銷量情況時很坦誠地表示。

「作為一個新的品牌、新的品類產品,當一個使用者進入我們門店的時候,思考的第一個問題不是我要買車,而是這個品牌是什麽牌子,能不能信任。這也是我們要去解決的問題。當品牌還在建立認知的過程中,我覺得應該把多把使用者帶上車,透過賣場景、賣體驗,這也是我們產品的優勢所在——而不能去靜態地賣配置。」

夏一平這個觀點說得很實在,因為大模型的體驗是不能從紙面資訊看的,電子電氣架構的優勢也不是在配置單上看得出來的。這就好像很多人第一次使用文本大模型、文生圖大模型時一開始都是很驚嘆,看上去像是搜尋功能,可背後完全是不同的執行邏輯。

所以極越目前的挑戰就在於,如何把「AI大模型」這樣虛幻的詞匯讓普通消費者可以更好地體驗出來,這就將決定極越的銷量。

不過夏一平在專訪最後提到的一段話頗為真切:

「科技的發展不會倒退,包括現在的AI技術發展,GPT大模型,以及整個AGI發展,這些技術的發展將非常有效的推動整個智駕的飛速發展。」

「時代不會倒流,科技也不會倒流。」

或許正因為有這種對AI、GPT大模型這些創新技術驅動汽車行業進一步發展的信念,才是夏一平堅信極越能夠最終成功的關鍵。

編後記:

寫完這篇稿件之後的一天,和@朱玉龍-YL 朱校長一起聊天,發現大家有一個很明確地共識是「AI大模型會成為一種全新的OS」。當然這個共識已經在一些ICT企業和車企裏面提出來了,包括本文采訪的極越夏一平也堅信AI大模型的OS邏輯,但是汽車媒體裏面似乎還很少提到。

目前OS解決的問題是透過觸達APP來實作需求的解決,但是由於APP/套用是延續了PC端的功能細分方式,所以整個OS系統還是「桌面」方式。這就造成目前車機界面的復雜性,需要一整套完整而繁瑣的APP Launcher(可以把這個界面也看做是一個APP,只是這個APP常駐系統)。

這就帶來了一個問題,就是APP成為了各個需求的一種入口,也使得我們其實是生活在APP的世界裏面。你需要完成什麽需求,那就是需要先明確自己應該用什麽APP,比如聽音樂是QQ音樂、看影片是愛奇藝、調整車輛某個功能需要進入到控制車輛的APP(當然,智能汽車上其實把車機控制整合到一個按鍵,但本質上也是APP)。這使得整個的體驗其實是很遲緩的,要做到某個目的不是可以立刻得到結果的。

所以下一步智能汽車的前進演化,最大可能的技術進步,不是三電系統、不是800V之後再搞1000V,而是基於大模型帶來的整個車內互動體驗的變化。從現在的GPT來看,基本的一個邏輯就是可說即可得,想做什麽直接說出來,然後經過一個黑盒在完成。消費者不會去關心這個過程是怎麽實作的,只想的是得到結果,這個邏輯很符合使用者需求的。

然後我還請教了數碼領域的KOL@flypig 對於手機行業目前端側大模型的使用前景的預判,我發現手機行業對於大模型的使用場景也是一個探索階段,但是完全沒有汽車這邊的場景廣闊。

我個人認為其中原因有幾個:1、手機還是一個重社交套用場景的硬件,這就註定了APP需求還是會更強,比如微信、飛書、微博這類,本身APP就已經是生態了;2、汽車功能需求單一、但對車輛控制復雜度卻更高,觸控的層級頁面帶來的問題更多,3、汽車安全性要求,在雙手不脫離方向盤的情況下,沒有觸控的前提下語音互動是更有利的選擇。所以基於大模型的車內互動就很重要了。

朱校長提出了一個很有意思的觀點是,特斯拉目前的估值,不是基於汽車業務的,實際上大部份是基於AI、大模型這些的估值,所以特斯拉不是目前中國汽車產業的參照標的物了。特斯拉打造2.5美元的廉價車也不能支持它的估值,只有看特斯拉在AI上的突破。

但是我們都認為,現在大家對AI大模型的想象力太孱弱了,根本不知道大模型上車後會有什麽場景。所以小米SU7釋出會上雷軍提出的理想文生圖的大模型是沒有意義的,還是要多模態融合,把視覺和地理位置結合起來,這會很重要,也是一個真真的個套用場景。

但是很大的問題是,要實作多模態的融合這一點還很難,算力、數據都是目前中國車企不足的地方的。不是說把海外公開的大模型搞過來就行。

更重要的是所謂的大模型本質上還是要布置在端側,能夠跑在端側效率才會很高,這一點百度也在強調大模型的未來在端側。這裏面又有一個問題,一個是NPU的算力,還有一個是你需要大記憶體來布置端側,同時記憶體和NPU的連線還要能夠達到高速傳輸,這都是難點。

但是,大模型上車,這個未來已經來了。目前看中國汽車的市值也就這樣了,或許下一步看看哪家真的能夠把AI算力和大模型的研發搞起來。而我的一個猜想是,像百度這樣的公司或許會成為一個新時代的Tier 1?

(END)