4月26日,商湯(00020.HK)收盤大漲43.37%,已連續5個交易日上漲,累計漲幅105%。
訊息面上,4月23日,商湯釋出了業內首個「雲、端、邊」全棧大模型產品矩陣,以滿足不同規模場景的套用需求,並全新升級「日日新SenseNova5.0」 (下稱「日日新5.0」)大模型體系。「日日新5.0」據悉在知識、數學、推理和程式碼能力方面大幅提升,綜合能力全面對標GP T-4 Turbo。
銀河證券釋出研報稱,商湯「日日新SenseNova」釋出節奏超預期,綜合能力大幅提升,有望推動國內通用大模型廠商加速叠代,降低套用端成本和門檻,進一步拓寬套用端場景,推動AI商業化行程提速。
「日日新SenseNova5.0」效能對標GPT-4 Turbo
自去年4月首次釋出以來,商湯「日日新SenseNova」大模型體系已正式推出五個大版本叠代。基於超過10TB tokens訓練、覆蓋大量合成數據,全新的「日日新5.0」采用混合專家架構,推理時上下文視窗可以有效到 200K 左右。
據悉,本次更新主要聚集增強了知識、數學、推理及程式碼能力,全面對標 GPT-4 Turbo,主流客觀評測上達到或超越 GPT-4 Turbo。
文科能力方面,「日日新5.0」的創意寫作能力、推理能力以及總結能力均大幅提升,相同的中文知識註入後,可以獲得更好的理解總結及問答,為教育、內容產業等垂直套用場景提供有力輔助。
理科能力方面,「日日新5.0」的數理能力、程式碼能力及推理能力達到業內領先水平,為金融、數據分析等場景落地提供堅實基礎。
多模態能力是大模型的另一大核心指標。商湯介紹稱,商湯多模態大模型的圖文感知能力達到全球領先水平,在多模態大模型權威綜合基準測試MMBench中綜合得分排名首位,具備豐富的多模態互動能力。
商湯把大模型能力分為三層:知識層、推理層和執行層。商湯董事長兼CEO徐立介紹,知識層,即過往大模型已經有共識能夠把世界的知識融匯到一個模型當中;推理層,也就是世界知識聯系背後的道理,是更加高階的知識,是決定模型是否聰明、是否能夠舉一反三的核心能力;在推理之上如果能跟世界進行互動就有了執行層。
「知識、推理、執行形成完備的集合來構造大模型的三個基本能力,它給了我們構造高質素數據的核心方法論。商湯在尺度定律的指導下,會持續探索大模型能力的KRE三層架構(知識-推理-執行),不斷突破大模型能力邊界。」徐立表示。
率先完成「雲端邊」全棧布局
過去一年,雲端大模型在各個行業已開始套用,但智能終端側,如手機、PC、汽車等AIoT器材,也是通用人工智能套用的廣泛載體和場景。時下中心化算力需求正逐漸向端側擴充套件,企業在邊緣側的AI需求也在快速增長。
商湯此次在業內首次推出「雲、端、邊」全棧大模型產品矩陣,其中包括套用於終端器材的「商湯端側大模型」,以及面向金融、程式碼、醫療、政務等多個領域的邊緣產品「商湯企業級大模型一體機」。
商湯表示,日日新·端側大語言模型的推理速度達到了業內最快,可在中端平台實作18.3字/秒的平均生成速度,旗艦平台更是達到了78.3字/秒;擴散模型同樣可在端側實作業內最快的推理速度,端側LDM-AI擴圖技術在某主流平台上,推理速度小於1.5秒,比友商雲端app快10倍,支持輸出1200萬像素及以上的高畫質圖片,支持在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等影像編輯功能。
銀河證券認為,未來通用大模型領域可能會更加集中在頭部廠商,更多廠商需要向行業專業化轉型,尋求賦能行業以及終端套用突破,垂類大模型以及端側大模型將是未來主戰場,市場空間廣闊。
商湯此次還推出端雲協同解決方案,可以透過智能化判斷協同發揮端雲各自優勢,需要聯網搜尋或處理復雜場景時分流至雲端處理,部份場景端側處理占比超過80%,從而顯著降低推理成本。
端雲協同或是未來端側大模型套用的主流趨勢。「有幾個重要的問題需要透過端雲結合來解決。」商湯聯合創始人、首席科學家王曉剛對第一財經表示。
王曉剛表示,一是成本問題,比如全國目前有30億台手機,假如每人每天呼叫近10次,那麽對於雲端的算力需求和消耗成本是巨大的;二是數據的傳輸和延遲,比如在智能汽車場景,行駛過程中針對車內外特別是車外場景提出的各種問題,需要得到非常及時、準確快速的響應,最典型的比如在自動駕駛裏,大模型的部署必須是發生在端側的;三是數據安全、私密各方面的問題,此外也有些沒有網絡的地方,使用者還是希望仍然能持續擁有大模型的體驗,這一切都實際推動了端側大模型的普及和推廣。
對於端側大模型來說,其使用體驗、效能與雲側大模型對齊至關重要。
「在過去一年裏,我們在雲端給手機、汽車客戶提供服務時,針對手機、智能汽車這些終端使用者的需求,對雲側模型做了大量的改進和開發。這樣再開發端側模型,端側模型的體驗就可以和雲側模型對齊。」王曉剛表示。
「這也是商湯端雲結合的獨特優勢。」王曉剛稱,「端雲結合最終是一個大的MOE(Mixture-of-Experts)架構,會有若幹個端側小模型,當使用者輸入需求時,我們會做出判斷,到底應該呼叫哪一個模型,或者是到雲端呼叫雲端模型。所以它是一個稀疏式的模型的啟用,可以大大節省運算成本,降低功耗。」
據悉,目前搭載商湯端側大模型的器材有部份正在量產,也有部份正處於接洽過程當中。在個人出行場景,近期火爆市場的小米汽車SU7,小米「小愛同學」為車主提供智能化互動體驗,當中也集合套用了商湯的大模型技術能力,有基於商湯端雲大模型解決方案。