由中國汽車技術研究中心有限公司、中國汽車工程學會、中國汽車工業協會、中國汽車報社共同主辦,天津經濟技術開發區管理委員會特別支持,日本汽車工業協會、德國汽車工業協會、中國汽車動力電池產業創新聯盟、新能源汽車國家大數據聯盟聯合協辦的第二十屆中國汽車產業發展(泰達)國際論壇(以下簡稱「泰達汽車論壇」)於2024年8月29日至9月1日在天津濱海新區舉辦。本屆論壇以「風雨同舟二十載 攜手並肩向未來」為年度主題,邀請重磅嘉賓展開深入研討。
在9月1日「科技生態方向圓桌論壇一:20年新引擎——深化人工智能技術的垂直化套用」中,商湯絕影創新中心高級總監李曉華發表題為「多模態大模型 打造下一代座艙大腦」的演講。
以下為演講實錄:
大家上午好!我是來自商湯絕影的李曉華。大模型在車領域,無論是大語言模型還是多模態模型,都帶來了許多新的體驗。
首先,我想播放一個小影片,來展現多模態大模型在車行業中所帶來的全新體驗。(播放影片)
剛剛播放的這個影片主要展示了多模態大模型如同一個助手,時刻關註著座艙內以及車外發生的事情。例如,它能判斷車輛是否在公交車道行駛,是否有交警指揮,並能給出更好的建議。
接下來,我將為大家介紹一張多模態大模型的業務圖。我們可以將這張圖分為三層,最下面一層橙色部份是模型層,其中包括車端側的模型和雲端的模型。車端側的模型可根據需求部署 2.1B、8B等規模的模型,用於進行端側的多模態大模型推理。
在雲端,則可以部署更大規模的模型,如 20B、100多B的模型。此外,雲端除了多模態大模型外,還包括一些其他雲類模型,如車書、醫療方面的模型,這些都適用於車領域的場景。上面藍色部份是引擎層,考慮到底層模型,包括記憶、推理框架等,使用起來相對復雜,因此我們構建了引擎層。引擎層主要有兩個產品:
第一個是座艙大腦,它主要有以下幾個能力:
1.能夠很好地感知座艙內的情況,例如辨識人的穿著、性別,細致觀察座艙內的細節特征,包括物品,如手機、寵物、帽子、眼鏡等,都能辨識出來。
2.能夠感知一些行為,如打電話、吃東西等,並能有效地輸出。
3.能夠進行環境推理和意圖推理,例如辨識出兩個人在交流、在討論高興的事情等。
4.具有跨時空的記憶能力,能夠很好地記住座艙內的人員以及共同經歷的事情。就像剛才的 Demo 中第一個場景提到的 「去我們上次去的那個咖啡館」,它能記住上次與誰一起去的咖啡館,並且能辨識出這次的人員是否與上次相同,這種能力可以作為座艙內產品的輸出。
第二個產品是全時駕駛輔助,它利用多模態大模型的能力感知車外場景,包括道路條件,如是否有積水、挖坑、道路是否坑窪等,並能做出相應推薦,例如車輛應如何調節以適應路況,以及光照、逆光等情況,它都可以作為行駛策略的輔助。此外,它還能提供決策輔助,感知周圍路況,如辨識出眾多電動車、路邊攤販、救護車等,並做出決策輔助。最後,它還能提供一些判斷條件,包括司機的狀態、通行障礙等。這個產品主要感知車外能力,為駕駛提供輔助推薦。
下面,我將從技術角度介紹端雲參考架構。這張圖展示了我們的多模態模型可以單獨部署在端側,也可以部份部署在端側,部份部署在雲側,而語言類模型可以純粹部署在雲側。從最左邊開始,使用者發出聲音後,透過語音轉成 SR 文本,包括 OMS 網絡攝影機等數據,都將經過數據處理模組,對圖片、文字、聲音以及車的訊號進行處理。然後進入觸發器模組,該模組主要考慮端雲結合的情況,根據一些觸發訊號,如開關門或使用者提問來進行觸發。如果是純端側算力方案,則可以不斷觸發。接下來是進入任務排程模組,然後到端側模型。如果是端雲一體的模型,我們會在端側主要對影像進行影像特征向量化的提取,將端側的特征送到雲端進行推理生成。在雲端做出推薦後,它可以進入到行動詞,該行動詞具有車輛外掛程式的能力以及其他智能體的配合,構建了一個工作流。
接下來,我想講一下大模型在座艙合作的模式。首先,在部署方面,我們剛才提到可以部署在純雲端,也可以采用端和雲結合的方式。雲端可以透過自研的推理框架,支持 100 多個算子庫,能夠高效地進行端側模型計算。在生態開發方面,可以實作服務套用的便捷開發,並且透過安全沙箱實作端側與雲側私密安全的隔離。下一步是持續更新,透過數據閉環,將使用者反饋的數據透過閉環進行訓練,透過私有化的 SFT 進行微調,以加強大模型的能力。最後,在合作模式上,我們前面介紹過,從模型層、產品引擎層到上層的套用層,都可以進行不同方式的合作。
最後,我想談一談車類產品離不開芯片平台的支持。在過去的一年,我們在高通、輝達的 Orin 基礎上完成了端側框架的聯調適配。今年,我們主要在 MTK8678 平台上進行模型算子的調節。後面,我們還會在輝達的 Sora、Intel 等芯片上進行多模態模型的部署。
今天我的分享就到這裏,謝謝大家!