李聰廷：小模型技術是中國企業率先匯入裝備中，大模型也不會例外

2024-05-09科技

「大模型只是技術升級而不是革命」，「裝備大模型化是商業化落地的最佳路線」，「大模型未來最大的挑戰可能是能耗問題」……

4月16日在宇視合作夥伴大會上，宇視總裁張鵬國對國內大模型發展提出了自己的見解，這些洞見和觀察，也是一直以來關於國內大模型發展的爭論點。

對此，觀察者網請宇視AI首席科學家李聰廷來進一步談談這些問題，將大模型套用落地的最新探索報告給大家。

觀察者網：如何理解大模型只是技術升級而不是革命，現在AI技術的熱度和期待值很高，這麽說會不會把技術發展的可能性給限制了？

李聰廷：技術受關註是好事，更多學術或企業從業者投身其中，加速技術進步和落地。理性的看，從深度學習小模型再到今天的大模型，學習效率低即依賴大量算力和標記數據的問題沒有解決，不可避免出現低階錯誤的問題也沒有解決，參照Yann Lecun的話：「機器學習與人類和動物相比很糟糕」。因此，大模型只是技術升級而不是革命。

大模型作為技術升級帶來的紅利，已經給商業化落地帶來很多商機，給不少企業帶來未來的增量或者效率提升。也正因為現在的大模型技術不是最終解，使類似Yann Lecun這樣的科學家把精力放到研究面向未來的新的技術路徑，應該說理性看待當下大模型技術，反而加大了找出未來路徑的可能性。

圖靈獎獲得者楊立昆（Yann Lecun）

觀察者網：圖靈獎獲得者楊立昆（Yann Lecun）批評Sora不是世界模型，認為生成式路線註定無法通往AGI，對此你怎麽看？

李聰廷：世界模型是對物理定律和環境規則的理解和對齊，Sora目前的確做不到這一點。現在的AI水平距離AGI還很遙遠，但已經消耗了巨大的算力和能耗，以chatGPT為例，每天需要耗費50萬度電，相當於1.7萬個美國家庭的耗電量，其學習效率與人腦天壤之別，這不得不引發學者們思考新的出路。

對當前技術路線的未來悲觀，並不代表對過去和當下的否定。Yann Lecun 2022年的「From Machine Learning to Autonomous Intelligence」講座，開篇提到「AI can do pretty amazing things today」，是對過去和當下的肯定，然後才提出當下技術路線無法通向AGI。

舉個例子，當下輔助駕駛已經在新能源車上普及，提升了駕駛體驗，但L4級別的自動駕駛落地遙遙無期，不可避免出現未知錯誤的問題難以根本解決。「當下最優解，不是最終解」這句話是對當前大模型技術現狀相對客觀的總結。

觀察者網：在千行百業落地的國產模型，要為解決各種細碎的問題，為細分場景專門最佳化，那麽在同等的任務上，未來表現出的能力，還會與國際上頂尖的通用大模型有差距嗎？有可能展現出大模型公司搞不定的能力嗎？

李聰廷：通用大模型，是基礎設施，有點像Android這樣的作業系統，有兩個特點。一是投入大，只有少數巨無霸企業能夠持續投入；二是生態壁壘墻厚，占先機建立廣大使用者基礎後，留給追趕著的機會就不多了。大模型技術是在美國爆發，因此OpenAI、Google、Meta等美國企業已占據了先機，中國企業或機構處於追趕狀態，我們不得不面對和正視這個差距。

通用大模型首先在C端獲得了大量使用者，人們可以與它對話、提問、寫作、作畫、作曲等，這種體驗是以前AI做不到的，一時間人們誤以為AI已經追上甚至超越人類水平。但在一些細分場景落地過程中，特別B端場景落地過程中，人們很快發現其精度過低、成本過高，無法落地。

例如，使用市面上任何一個通用大模型辨識杜拜車牌，正確率低於20%。又比如，宇視作為產品和解決方案輻射全球200多個國家和地區的全球化公司，資料轉譯很消耗人力，但通用大模型會把「槍機」形態的網絡攝影機直譯成「gun camera」，因為它不具備「box camera」這類專業詞匯的知識庫。因此，是細分場景落地催生了行業大模型。

在中國，我們深入去看每一個細分行業，幾乎都能找到一兩家甚至更多具備很強產品研發能力的企業。這類企業在國內市場充分競爭廝殺，國外產品型公司很難與之競爭。這類企業，已經在將自身產品與行業大模型結合，推出更有競爭力的產品。總的來說，行業大模型落地產品，中國並不落後。

大模型化的網絡攝影機提升了夜間觀測的能力，用於觀察和保護猛禽

觀察者網：裝備（工具）的模型化能戰勝模型的裝備（工具）化，或者說，+AI能戰勝AI+，這個判斷有哪些產業發展歷史上的經驗可以佐證？

李聰廷：現在的大模型階段已有不少例子，比如一年前MidJourney V5和Stable Diffusion這類文生圖大模型出現在公眾眼前的時候，有人驚呼圖片編輯工具市場要顛覆了。但今天看Adobe Illustrator 、Photoshop這類工具的使用者並沒有流失，在Adobe推出firefly大模型並整合到自家工具中後，其使用者基礎更穩固了。背後的本質是，大模型技術可以提升工具中部份模組的效率，還遠遠達不到替代工具本身。而且今天，訓練調優一個自己的行業或垂直大模型門檻並沒有那麽高。

回顧上一個階段，即2014年深度學習技術在產業界開始爆發到大模型技術套用前，一度很多人也認為AI新勢力會顛覆傳統套用/工具/裝備的公司。早期，這類公司的演算法處於領先，同時在大量資金註入和人才加盟的背景下，很快入場做產品。最後發現產品的技術點非常多，傳統產品公司過去踩過的坑，AI新勢力不得不重新踩一遍。

好不容易過了產品研發關，又遇到了制造瓶頸，制造特點是單個環節看似極其沒有技術含量，但數百萬器件bom的管理和流水運作，有極高的門檻。制造門檻後面還有渠道門檻，渠道門檻後面還有規模采購成本門檻。最後AI新勢力不得不轉向提供演算法授權的商業模式，但很快傳統產品公司完成了演算法追趕，演算法紅利消失後，這種商業模式也折戟了。

上述例子表明，裝備（工具）企業被大模型技術新勢力企業趕超的可行性很小，但那些跟不上大模型技術升級的裝備（工具）企業有可能被其它裝備（工具）企業淘汰掉。

觀察者網：從裝備大模型化的觀點看，中國應該具有率先將大模型套用落地的諸多優勢，如工程能力的優勢，新能源產業的優勢。從你們在海外市場競爭的經驗看，中國企業是不是走在了前面？

李聰廷：先從裝備的產品力本身看，以AI體鍛屏為例，需要具備成像技術、嵌入式軟件技術、雲和APP軟件、硬件技術、顯示技術、互動設計、工程交付技術等諸多要素，當然還有AI。研發出有競爭力的產品還遠遠不夠，得上量才能覆蓋研發投入並有利潤，這很考驗企業的渠道能力。有渠道帶貨，我們還要能造得出來，這又考驗企業的規模制造能力。產品售價既要有競爭力還要有利潤，這又考驗企業的規模采購議價能力。當然，還有速度要素。因此，比拼的是所有要素的綜合能力。

AI是其中一個要素，從小模型到大模型，技術升級了。這個變量，在裝備企業之間產生足夠的影響，舊的產品會加速叠代，並且還會創造一些新的場景的產品；反之，如果跟不上技術叠代，企業就會掉隊。但對於沒有裝備經驗只有大模型技術的企業，要邁過其它諸多要素的檻，道阻且長。

上一階段的小模型技術，中國企業是率先匯入並套用於裝備中的，這次大模型技術也不會例外。

觀察者網：已經有不少批評說中國做大模型的公司太多了，但是中國能做各種器材的公司更多，如果每個有實力的器材公司都想+AI，做自己的行業模型，會不會呈現出非常細碎，沒有統一標準、統一品牌的離散格局？

李聰廷：新技術出現，必然會吸引大量優秀人才和資本入場。這裏有定位通用大模型的、有定位行業大模型的、有定位工具鏈的、當然還有定位 APP/工具/裝備的。

通用大模型，最後大概率會集中在頭部少數幾家，贏者通吃，這幾家自身就成為了事實的標準。其它企業會比較艱難甚至出局。

定位行業大模型的企業，有點像小模型時代的演算法授權商業模式，它太容易被APP/工具/裝備企業的自研給替代。因此避開與這類產品企業競爭，找到有生存機會的細分場景很重要。最後有可能出現幾個細分場景的小而美的企業，做大的可能性不大。

定位工具鏈的企業，閉源，無法獲得大量開發者使用者，不利於建生態。開源，看不清商業盈利路徑。左右為難的同時，還面臨大廠自研的競爭挑戰。

定位APP/工具/裝備的企業，行業大模型只是其產品的一個技術要素，使用者側看到的仍是其產品品牌。使用者甚至感受不到行業大模型的存在，但一定能感知到產品的使用者體驗提升了。

觀察者網：月之暗面的楊植麟說，今天的大部份開發工作實際上是做中間層的事情，就是數據。互動和模型可能都是一樣的，但用不同的數據，就會出來不同的產品。定義好了訓練數據和測試數據，大模型產品就定義好了。月之暗面是做雲端運算，做to C端產品，對於你們做邊緣計算，做to B端產品來說，這個描述也適用嗎？

李聰廷：最近月之暗面及其旗下套用Kimi熱度很高，使用者體驗做得不錯。我們所在的AIoT 賽道，和它所在的賽道沒有交集。訓練和測試數據肯定很重要，在我們這個賽道也一樣。但對於定義一個行業大模型而言，我們會更關註其落地的性價比。

例如，如果我們用10B級別的通用CV大模型去做影片解析的逐幀推理，那需要用到A800級的GPU器材，單路的即時推理成本需要1萬美金左右，而我們的客戶過去只能接受幾百元人民幣每路的成本。因此，我們采用了5M的小模型+1B的梧桐行業大模型結合的方式，並且都是ViT網絡結構，這樣我們的單路推理成本可以做到幾百元人民幣水平。

觀察者網：當前倡導的「新質生產力」就是要找到更多資訊化、智能化的新模式、新場景、新業態。在典型的物聯網場景比如充電樁，還有你們正在探索的文教體等行業，目前找到了哪些好的AI套用場景，已經表現出了能夠商業落地，適合技術叠代的跡象？

李聰廷：確實，技術進步會催生更多的細分行業場景，比如AI文教體、儲能、充電樁等，在宇視2024合作夥伴大會的現場，大家能看到很多的這類產品，我舉四類：

一是AI體育教育：實作體育教具的AI化，其是一個具備逐步叠代與升級的長程賽道，可以圍繞的教學要求、運動種類、鍛煉目標等不斷地提升效率、效果及內容豐富度，一方面是針對不同的運動類目不斷增加演算法類別，另一方面又可在單一演算法類別上不斷縱深最佳化效果。

大模型提升了演算法精度，推進了體育教具AI化

二是AI體育運動：分享經濟時代，能更全面記錄自己想要記錄的時刻，具備更豐富的可分享素材是通識性需求，只要是運動遊玩都有此類訴求，所以在這個領域內寬度（運動類別）無上限，深度（每一個細分領域可提供滿足個人情緒價值的內容）無上限。

在烏鎮現場展示的智能球場解決方案，透過AI捕捉分析，自動生產運動影片並統計數據

三是文旅領域：基於梧桐大模型演進的演算法服務於「旅遊」行業，透過攝影機采集AI擇優生成照片與vlog模式可覆蓋景區、遊樂場所、博物館等多類場景，更好的與當下分享經濟結合，服務於個體情緒價值的滿足，其具備充分的最佳化演進空間，比如在演算法的優選效果上、影片的畫面清晰度上、影片剪輯的創意性以及更多更有趣的表達方式等等。

四是AI寫真：透過AI演算法來完成照片的優選與「PS」，可以配合個體快速的完成不同場景生成、不同裝造、不同形象（二次元、商務等）的照片生成，即可幫助找適合自己的造型、也可在過程中帶來娛樂性，同時也可服務於個體某一些場合所需照片的快速獲取訴求。

觀察者網：大模型未來最大的挑戰可能是能耗問題，模型的能力增長與算力增長、能耗增長的關系是怎樣的？為什麽分布式能源系統和能算一體化是解題思路？

李聰廷：要把大模型技術和大模型套用分開，還要把大模型套用中的互聯網服務和裝備化產品分開。對於面向C端的大模型互聯網服務來說，比如ChatGPT、Sora來說，算力和能耗問題比較突出，每多服務一個使用者，都需要額外的算力和能耗。但對於使用的大模型技術的裝備來說，算力和能耗是有限的、固定的，並不存在算力和能耗焦慮。

對於算力高度集中的數據中心套用場景，能算一體也許是個發展方向，能源自給自足肯定是有利於降低成本的，但代價是能源供給的穩定性。分布式能源是一種能源結構，涵蓋的面比能算一體更廣泛，解決的不止是數據中心能耗的問題。

本文系觀察者網獨家稿件，文章內容純屬作者個人觀點，不代表平台觀點，未經授權，不得轉載，否則將追究法律責任。關註觀察者網微信guanchacn，每日閱讀趣味文章。