當前位置: 華文世界 > 科技

獵戶星空董事長傅盛:大模型沒有那麽神秘

2024-08-23科技

8月21日,2024世界機器人大會在北京開幕,獵豹移動董事長兼CEO、獵戶星空董事長傅盛,進行了題目為【端模合一:大模型賦能機器人的創新實踐】的演講:

在演講中,傅盛從大模型落地機器人產業的實踐出發,認為大模型也沒有那麽神秘,但大模型要足夠大、足夠多的數據,才會突然有一天湧現出、頓悟出它的智能。要對人形機器人的技術復雜度懷著充分的敬意,落地還要很長時間。不過人形機器人不一定非得像人,但得有雙手。

以下為演講實錄:

今天非常榮幸有機會在這裏跟大家分享一些我們從事機器人行業尤其人工智能行業應該有7年多了一些心得和技術變化的體會。

其實獵豹移動經歷了三個周期。

第一個周期,最早把金山毒霸這款工業產品變成免費的互聯網產品;

第二個周期,全球化,2012年的時候做了全球的工序列軟件,並且有兩年的時間使得使用者量在全球範圍內達到了6億的月度活躍,80%來自於海外,所以在2014年就在紐交所上市了;

第三個周期,2016年看到了人工智能的興起就是以AlphaGo為代表的人工智能1.0的興起,當時就有一個判斷,我認為人工智能會使機器人這個行業從傳統的工業場景走到服務業場景,最後走進千家萬戶,所以獵豹移動又投資創辦了獵戶星空作為一家獨立的公司更好的實作自己在機器人方面的探索。

到今天不知不覺已經7年多了時間了。

今年剛剛更新的公司的Slogan:在AGI時代,成為全球領先的新質生產力工具的提供商。我們從最早創立的時候做防毒軟件、工具軟件,機器人其實都是看成工具,我們這個團隊的能力和基因也是來自於工具,現在整個公司有4個業務板塊,今天主要是機器人業務,我們的第四大業務。

先講一下這波人工智能對於整個行業的影響或者基礎的理論,相信大家比較熟悉了,其實有一個我很喜歡的科普作家,他在去年的時候就說人工智能這次的崛起可能是人類科技史上非常重要的一年就是「奇跡年」,這個出現就像當年牛頓「萬有重力」那一年,和1905年愛因斯坦的「相對論」,因為這波大語言模型帶來的端到端真正的創新範式的影響對於全行業、全社會都是巨大的改變。

前不久阿裏巴巴的首席科學家說這波AI使得科研從過去的假設科研會變成端到端的科研,也就是說未來是越多的數據就能及時得出結論,不再需要中間進行假設、公式等等,我們可以看到AI不僅在機器人行業,在各個行業都發生著重大範式的變化。

語意理解等到機器人懂語言這件事就是一個重大改變,我記得在AI1.0時代當時覺得機器人能下圍棋能辨識影像已經很厲害了,但是一直等到ChatGPT出來的時候才意識到語言的理解和影像的理解根本是兩個維度的難度,當時在2016、2017年大家認為自動駕駛很快會實作,語言會實作,事實上在那波浪潮以後,其實人工智能整個的技術天花板大概有幾年沒有真正突破的,一直到ChatGPT出現,所以語言實際上是人類真正獨立於其它物種的核心智能,真正辨識也好,影像辨識、語音辨識,動物也都有這樣的能力,但是語言尤其是描述虛擬事物的語言是人和其它動物真正的核心區別。

當然OpenAI的出現,很多人問我一個問題為什麽OpenAI能做成,我覺得更多是走了一條不同的路徑,與其說OpenAI是技術積累的勝利,不如說是技術信仰的勝利,它是真正從過去規則模式變成自己學習的模式,這之前為了語言的理解,教了電腦很多規則,只有OpenAI堅信不需要教它規則,讓它讀足夠多的文本就能夠出現智能,這件事在當時看起來即便在矽谷,我跟很多大廠的研究員都交流過,他們都認為OpenAI這條路肯定走不通,但是ChatGPT出現的時候,對於整個行業的影響都是巨大的,不是一個技術積累的勝利,人工智能真正的底層模型一直到Transformer的時候大家都在一條路上,後來谷歌用Transformer做了BERT以後,大家都認為BERT已經是非常驚艷的一個模型了,但是只有OpenAI堅信其實可以用更大的數據、更大的參數做一個完全生成式的模型而不是判別式模型,這條路開始是一個小的分支,後來等到ChatGPT出現的時候,大家才意識到這條路是完全可以做到的,這背後就像一個大航海一樣,哥倫布的三個小船到了美洲,之後很多船就可以到美洲,本質上路徑並沒有那麽難,但是想到這條路徑是最難的。

這個也是和1.0時代最大的區別,1.0時代對一個系統只要餵數據就會出現一定情況的智能,但是隨著數據的增多,智能就到了一個瓶頸,真正2.0時代管它叫頓悟,一開始說OpenAI真正牛的地方在於一開始這個系統是很差的,餵了很多數據都顯的特別笨,突然有一天就像小孩子放在身邊,跟著父母半年、一年突然有一天開口叫媽媽的時候,他的語言能力一下子突飛猛進了,在前面的寂寞期是最難的,所有人不看好又不斷的燒錢,它的首席科學家一直在說不夠智能就是因為數據不夠。

那天跟我們的團隊交流了一下,BERT作為當時來看很大參數的質素模型,大概也就幾千萬上億的參數,等到ChatGPT直接到一千億參數,產生了完全的質變,後來各種證明這波的人工智能大模型最大的不同就是要足夠大、足夠多的數據才會突然有一天湧現出、頓悟出它的智能,但是也沒有那麽神秘。

我前兩天去香港大學,他們剛剛成立了一個人工智能的學院,把電腦系、統計系等等這些都給合在一起,讓馬教授當院長,他是我們的獨董經常和他有很多交流,他的一個觀點就是很多人把大模型神秘化了,它是一個非常好的工具但是並沒有那麽神秘。

第二個所謂會產生意識淪陷人類這件事要麽不懂,要麽是別有用心,希望更多的讓小公司不要參與是最好的,即便在美國很多大公司把這個事情描繪的要淪陷人類一樣,但是事實上就是一個好用的工具,如果最簡化的理解看成一個大號的小算盤,它的本質就是計算下一個詞的概率,這個詞的概率不斷的出現,出了這麽多詞以後居然是一個非常連貫的語句能夠完成邏輯和推理,這事原理非常簡單就是下個詞不斷的概率統計,但是卻能夠湧現出職能,到今天為止這裏面的細節原理都是不知道的,所以李飛飛有句話說「大模型是個灰盒」,也不完全是黑盒,大概我們知道神經元的不斷連線就可以產生智能,但是中間究竟每個智能是如何產生的,今天是個灰盒,因為過於復雜,我們業內有句話今天訓大模型就像煉丹一樣,一直等到爐子開啟的時候才知道這個丹到底煉沒煉好,其實缺乏對過程的理解。

回顧OpenAI來看,OpenAI真正走出一條與眾不同的道路然後實作了創新,但是我想說OpenAI並不一定是透過AGI的唯一道路,今天大語言模型到底能不能通往AGI大家又開始出現了分歧,很多人說大語言模型是一個問答模型,本質上是個概率統計,所以很難產生足夠的規劃能力,吳文達最近說要用Agent技術要把更多的人類知識合規化和大模型結合,大模型是眾多工具中的一個,但是能不能走向AGI現在有人在打問號。

包括Meta的首席科學家楊立昆不斷在說大語言模型的天然結構使得它很難實作AGI,其實馬毅教授,他是華人中人工智能界非常泰鬥級的人物了,因為他的論文被參照次數是非常多的,他們團隊正在致力於Transformer的白盒化,能夠把過程真正的給理解,這樣的話才能知道這一千多億的神經元裏哪些是效率很低的,不需要的,可以重新設計結構,我們看到這個科技樹又在不斷的分杈。

除了OpenAI在做的一千多億上萬億,GPT4是1點幾萬億的模型之外,更多出現了很多小參數的模型,幾十億參數、幾億參數的,這也是一個非常重要的分歧,我們在去年3月的時候我就認為不是只有一條路能夠走通,比如說最好的創業公司融了最多的錢,但是會有一群愛好者、黑客還有教授、學者、其它公司就說能不能再走一條不一樣的路,既然智能是湧現的,是不是只有一千億參數才能湧現智能,是不是一百億參數也可以湧現智能,你往那邊想造一個愛因斯坦解決全世界的問題,但是另一個觀點認為我們其實很多工作不需要愛因斯坦。

如果家裏換燈泡是請愛因斯坦來換,當然人已經不在了,其實旁邊的胡師傅換燈泡效果又快又好。整個社會是一個多元結構的,是一個金字塔型的結構,所以在基層其實需要更多的平民化大模型的出現。

今天可以看到在過去根據時間來看,現在出現的很多大模型都是在小參數量下,我們會發現世界上最大幾家公司尤其像蘋果、微軟都在不斷釋出很小參數量的模型,蘋果釋出了一億多參數的模型,微軟釋出了7億參數的模型,其實他們為什麽不斷的釋出小參數模型,因為這個可能直接跑在端上直接變成終端的一部份,而不再是雲端的一部份,這帶來的產品變革和科技變革可能它的意義更大。

我們去年也訓了一個模型是14B的,很重要一個方面是訓練100B的錢花很多,另一個點我們當時考慮以後我們的機器人一定要端上自己跑一個模型,這個模型就能實作即時的處理,而不需要跑到雲端,既解決數據私密的問題又解決快速響應的問題,我們的思路一直是在一個小參數量的模型上進行嘗試,看看能不能把它的推理能力做到在這個領域內不錯。

其實很多工作一個合格的本科生甚至專科生就夠了,我們國家為什麽只需要一半人上辦學,其實很多工作作為一個技術工種不需要了解那麽多豐富的知識也能做好。我們提出了端模一體,根據今天做的產品尤其在機器人行業,根據機器人套用場景選擇你的模型,要麽是一個小參數模型,要麽是本地和伺服端相互協調的,優勢第一是推理成本很低,最近有Copilot PC,很多人都買,微軟給大家展示的場景就是你的電腦上直接跑了一個模型,再也不需要調API,也不需要付費了,一個晚上給你不停的幹活,響應很快。

由於參數小了,所以一個4090、3090都能秒秒鐘吐出幾百個token和傳統程式的響應速度可以媲美,安全可靠,你的數據不會送到雲端,這樣的話解決一個大家都非常擔憂的私密問題。

我們可以看到今天的巨頭為端模一體做了很多工作,比如蘋果,我們都知道蘋果前不久開了一個釋出會,這可能是蘋果歷史上唯一一次沒有釋出任何新的硬件產品但是股價漲的最多的釋出會,就釋出了一個IOS18,就是一個Siri,Siri裏就是一個語音的互動,前面釋出其它產品的時候股價一直在跌,我整個晚上全程監控,等到Siri上場的時候就開始漲了,第二天大漲7%,第三天又漲了3%,一個3萬億美金的公司因為釋出了一個本地化模型的產品,大概漲了3000億美金的市值,其實裏面提的最多的就是今天的iPhone 15 pro max就能跑一個在原生的模型,這個本地模型可以處理所有的郵件、聊天內容,甚至實作真正無縫連線的個人助理。

舉了一個例子,明天你媽要來機場了,你得接她,因為它從郵件裏讀出來的,但是蘋果用了大量的篇幅告訴大家我雖然可以給你處理的這麽好,但是對於你的私密是高度關註的,首先我用的是端上的模型,這個模型處理大部份的數據,第二個如果端上模型能力不夠的時候再給伺服端,伺服端是一個加密的儲存,我都不知道數據是什麽。

第三個如果要用ChatGPT的話,會給你一個提示,是否要把這個內容給ChatGPT處理。再一個為了模型調整端,微軟釋出了Copilot PC這是微軟歷史上第一次搭載為inter的CPU,為什麽選用高通的CPU,在其他主流效能和主流芯片有所優勢之外,最重要的是有一個40T tops的AI芯片,有一個專門小的主力模組,高達40T的tops算力專門處理AI相關的算力,這樣的話在未來模型不再需要消耗CPU,也不需要消耗GPU,一個專用的NUP就解決了本地模型的處理問題,能夠實作非常快的響應。

我們認為端模一體未來一定是互動革命和生產力革命兩件事,互動革命我們以前大部份工作都是圍著機器,我們學寫程式,是讓機器理解我們的需求然後實作它的程式碼,我們怎麽做PPT,怎麽用office,也是讓機器真正把我們的idea變成一個文件,今天已經開始出現了很多了機器圍著人轉,我需要一個什麽文件,不需要了解哪個辦公軟件怎麽用的,你去幫我生成,所有的器材都會被重做一遍,這次蘋果為什麽釋出一個軟件產品,引發了那麽大的反響,相當於蘋果被重新設計了,iPhone被重新設計了,可能以後螢幕更多是展示的視窗,而語言才是真正和它交流的視窗。自然語言是我們最熟悉和方便的表達方式,我們不需要學習任何的界面就能夠很好的使用機器,而在以前我們是不可以的,所有的東西或多或少都要學習,以前連個健康碼都要學習,老人不懂怎麽調出健康碼就寸步難行。

第二個就是生產力革命,這波電能能夠轉成通用智能,今天講Robot,其實在英語裏不是人的概念,它實際上就是勞動力的概念,就是一個勞動力、奴役的意思,能幫我們解決更多問題。今天已經看到了很多企業開始出現了互動革命,比如說Meta最近那款眼鏡,在有大語言模型之前,這個眼鏡其實大家一直雞肋型產品,但是現在能夠幫助盲人辨識紅綠燈,能告訴他怎麽走。

三星也釋出了AI手機,你跟別人打電話時自動就轉譯了,生產力革命聯想這樣的企業這麽長時間,今年財報大漲,很大一部份來自於Copilot PC,以前PC也是生產力工具,但是生產力工具必須一直圍著PC,只要離開了就不工作,你要不停的輸指令,以後可能晚上的時候跟PC說今天給我把所有網上的資訊找好,分門別類的存在各種文件,交待5分鐘你就睡了,然後它就開始幹,我們想象一個這樣的場景。

這是我們投了一家公司叫秒播,其實就是用AI實作真正的一鍵開播,一個直播間完全感覺不到是AI做的,和一個真實直播間一樣,但是它的成本比起小姐姐便宜多了,這個公司的收入漲的非常快。

我們要做好新質生產力工具,做好機器人就要把大模型和機器人緊密的結合,國外有一個基金說以後機器人就是一個新的物種,它的CPU、GPU對應我們的大腦,它的大語言模型就像我們上過大學一樣,能讓你的智能進行展現,人吃的知識來自於書,但是機器人來自自己的學習,能源我們是食物,它就是電力,我們是在這個行業內因為做的早,其實把當時的語音、語意、導航這些東西都做過一遍,但是今天發現大一統的大模型能夠解決大部份問題。

我們很早提出來機器人不應該是一個自動化的機器,AI在裏面應該是一個很大的比重,今天看起來這個公式也不過時,我們認為AI是一個底層的邏輯再加軟件、硬件這樣服務才是一個大模型機器人。

我們最近在做的工作就是把過去其實在4、5年前機器人就開始慢慢的量產,最近在做的工作是把大模型和這個端結合起來,叫做大模型機器人,變成端模一體,當有了大模型做成大腦的時候就會發現整個智能水平、規劃能力都大振幅的提升。

我們在2016年的時候做服務機器人,當時就預見到人工智能會是很大的變革,事實上坦率的講在ChatGPT大語言模型出來之前,即便我們做的所謂的人工智能體系都是一個預設任務,你進一個餐廳要把菜譜輸給它,匹配很多問答隊,每個工作都特別繁重然後叫「人工智障」,這是我女兒給我的評價,她說老爸你做這個人工智障機器人,我們當時在商場放了不少機器人,她就沒事調戲一下,問個咖啡在哪兒都可以,一問到別的問題聽不懂,因為那個時候就是一個客製化的,針對一個場景客製非常多的問答隊,但是今天有了大語言模型以後,首先這個客製工作量大振幅降低,今天去一個餐廳再也不需要匹配問答隊了只要把菜譜看一下甚至不用,如果授權大眾點評號給它,它就立刻知道這個餐廳的特色是什麽,你想推薦什麽菜品,有什麽優惠券,自主決策。

以前很多東西移動都要寫程式碼去完成,今天大模型是可以根據環境做自主決策的,現寫一段程式碼完成一個工作,這在以前都是很難想象的。

今天有三大類七個產品品種,我們叫AI勞動協作,我在我的影片號上說對人形機器人的技術復雜度懷著充分的敬意的,這個東西的落地還是要很長時間,但是我認為不一定非得像人,但是得有雙手,雙臂的這件事很快就會開始在很多場景落地,其實在這之前基礎做過類似於調咖啡這樣的企業,那個時候還是比較程式化的,現在是可以做成智能化的,還有巡檢,真正的勞動協作,在一些場景把人過去的煩瑣勞動去掉。

再一個是行銷接待,我們覺得這個機器人促銷這件事由於有了大語言模型真能做到多快好省的,再一個大家都知道遞送機器人,這個已經比較成熟了,大家在酒店、餐廳都看過,但是由於有了大模型的加持,未來會更加智能服務的更好。我們在冬奧會上,當時谷愛淩還喝過它的手沖咖啡,我們當時為了降低這款機器人的成本,雙臂都是和我們投資的公司一起客製的,我們的目標是能夠讓它的成本比一個高檔的咖啡機還便宜,然後它的手沖這部份能夠真正及時的,以後要兌什麽口味或者怎麽沖就完全能夠執行了,現在目前的還是一個程式化的,我們正在做這方面的工作。

這個場景就是真正讓機器人實作了巡檢,我一直在想我們做機器人這個行業不用想著替代人,因為有一些人有一些地方不可替代的,比如說服務的溫暖、靈活的機制可能是很長時間替代不了的,但是可以找到一些人特別不擅長的但是又很需要的工作,這才是服務機器人很重要的點,巡檢這樣的事對於一個人來說工作非常煩瑣而且機容易疏漏,但是機器人做的很好。

巡檢這件事就是AI更適合了,人一本本看了後面忘了前面,但是AI可以大批次的快速的一小時能掃10萬冊,掃完以後對哪本書在哪裏都能記住,人要找書的時候它可以帶著,因為它的記憶是永不消退的,人是很容易忘記的,我記得以前大學去圖書館拿卡片慢慢找,找本書累死了,這其實是一個挺大的場景尤其在國外,前兩年去美國有一個美術圖書館也在嘗試用我們的機器人,美國在社區裏都有圖書館,這是一個很大的場景。

結合投資那家AI直播公司做了一個走播機器人,這個機器人在餐廳裏來回走,如果在直播間問它帶我看一下你的生蠔區,就會跟你講我們家生蠔又便宜又新鮮。

這家餐廳以前是先請小姐姐,後來店長自己上去播,每個月大概播個幾千塊錢的營業額,在直播這個頻道,後來用了走播機器人以後,一天能到幾千塊錢,不是在所謂的替代,而是找一些方面比人更擅長的,比如說一天可以從頭播到尾,小姐姐播兩三個小時就得下播了,因為體力和嗓子扛不住了,第二個就算不來人情緒也很飽滿,很多直播間其實平時沒有人的,但是主播還得很情緒飽滿,否則來個人的時候會一下子就跳走,第三個就是使用者每個問題都認真回答,而且用口播的方式,所以這個提效是非常明顯的最近我們在跟幾個大的餐飲連鎖都在合作。

現在我們跟全國最大的連鎖酒店正在做打通系統,這種遞送類機器人叫做忙時送餐,閑時攬客,以前沒有大語言模型前這個功能要做起來是非常復雜的,但是現在就完全可以做到了,甚至可以和機器人直接說,現在沒什麽事到門口宣傳一下新菜品,它就立刻可以去了,這就是智能化一個進步。

這是拿創始人的聲音客製了,機器人講就是他的聲音,他沒有空的時候機器人幫他講解回答問題。我們在海外也開始了,尤其在日本有一個 安樂廳 的日本的北韓烤肉,上百家已經開始使用我們的機器人了,會持續的增加。

首先當年我們特別重視智能化,所以我們機器人作業系統是純安卓開源一個作業系統,而且相容了各種體系,所以代理商在上面做開發是非常容易的,包括剛剛大家看到的日語界面都是自己客製的,可以自己做開發。第二個由於有了大語言模型,以前我們海外的機器不太敢開語音功能,工作量太大了,還得招一批懂日語的人做客製,現在有了大語言模型天然就是一個轉譯機,我們在使用14B的模型專門把日語加強,我們在日語現在的排行榜開源模型裏是排第一的,所以它的互動能力跟你對話的能力很快就能夠快速的形成一個高水準接近人的能力。

我們做機器人行業不僅要著眼中國也要放眼全球,今年跑過日本和南韓,當時日本有一個中國的工程師跟我說,最讓我感動的是一幫東芝、松下白發蒼蒼的工程師來采中國機器人的時候,他覺得這時候是特別驕傲的。因為今天中國進入這麽快的發展,其實硬件供應鏈的體系高性價比,價格便宜但是質素又很好,再加上今天中國互聯網儲備的各種軟件人才和人工智能人才,其實我在2017年的時候創辦獵戶星空在想,如果真的要做好人工智能機器人,這件事只能是中國的企業能做成全球最有競爭力的,美國硬件方面供應鏈是有問題的,很多還得跑到深圳來做板子。

日本、歐洲其實在人工智能和互聯網領域是落後的,真正大模型機器人比拼的是硬件、軟件+服務等等全套能力的綜合,這點中國企業就可以在全球走到最前面,今天已經看到這樣的端倪了,現在海外的收入已經開始超越了國內,但是還有很多的事情要做,包括建更多的渠道,讓我們的產品變的更好用,讓我們的能力變的更強,但是我堅信下一個時代,除了AI Phone、AI PC,現在汽車也是AI化的,新能源車之所以有這麽大的顛覆,這麽大的格局的改變,核心不是新能源,而是智能化水平的提升無論是智駕的水平還是座艙互動的水平,這都是在以前那些寫程式碼那些人最擅長的,而不是結構上最擅長的,所以這波車也是有巨大的變化,我相信機器人也會這樣,由於有了大模型,機器人這個行業的確可以開始走進千家萬戶,走進各個場景,讓我們的生活真的因為身邊有更多的機器人幫我們服務而變的更好。

今天就講這些,謝謝大家!