當前位置: 華文世界 > 科技

WRC大咖論道|北京具身智慧機器人創新中心總經理熊友軍

2024-10-25科技

2024世界機器人大會以「共育新質生產力 共享智慧新未來」為主題,為期三天的主論壇和26場專題論壇上,416位元國內外頂尖科學家、國際組織代表、院士和企業家聚焦前沿技術、產業動向和創新成果,深入研討人工智慧與機器人技術深度融合帶來的新趨勢、新機遇,共同打造了一場十分精彩的機器人領域前沿觀點盛宴!

在8月24日下午的主論壇上,北京具身智慧機器人創新中心總經理熊友軍以【具身智慧:打造人機共生的新時代】為主題發表演講。

以下是對話內容實錄

熊友軍(北京具身智慧機器人創新中心總經理)

非常高興能夠參加世界機器人大會,受益匪淺,見到了很多老朋友,也結識了很多新朋友。大家到最後都會談到一個問題,就是具身智慧相關的問題。大家都在談具身智慧這個技術的進步,談具身智慧對未來社會價值的體現。在我看來,具身智慧實際上就是人工智慧和機器人深度的結合,具身智慧是長了身體的智慧,將會是技術的一個非常巨大的進步。

今天我想跟大家匯報一下我們創新中心在具身智慧這方面的工作,首先我覺得具身智慧應該是第4次工業革命新階段,我們人類從18世紀以來經過了幾次技術的叠代,每一次技術的叠代都帶來社會極大的進步,都帶來技術極大的提升,給人的生產生活帶來很大的變化。

第一次工業革命,蒸汽機的發明,將人類從生產勞動中解脫出來。

第二次工業革命,電力的發明,帶來了電氣化時代。

第三次工業革命,電腦和互聯網的到來,以及資訊化時代。

第四次工業革命,人工智慧大規模的套用、人工智慧的進步為體現的。

這一代的人工智慧更多體現在認知、決策和方案,它對人類物理世界的改變是間接的,但是具身智慧有一個特點,它跟物理世界有直接的互動,它能夠給人類帶來更多更直接的體現,直接給物理世界帶來更多的改變,尤其是它對生產力的,因為它具有身體,帶來物理世界的改變,所以會帶來生產力極大的提升,同時也會改變我們生產生活方式的一些重構。

我們覺得具身智慧是人工智慧的一個新的範式,它有幾個特點。

特點一,它跟物理世界能夠直接進行互動。

它像人一樣有身體,能夠直接影響我們的環境,能夠直接影響我們周邊的事物。我們早期人工智慧更多是在數位空間和虛擬空間、資訊空間的互動,中國有句俗話,「讀萬卷書,行萬裏路」,我們早期的人工智慧更多是讀萬卷書,今天的具身智慧因為有更多的物理互動,具身智慧是有一定物理空間的,它不能脫離這個物理空間,不能夠說我今天在北京,明天就跑到天南海北。人工智慧上下五千年,天南海北各種各樣的資訊都可以跟它進行互動,這是具身智慧第一個特點,它跟物理世界有直接的互動。

特點二,具身智慧是一種自主學習的方式,它跟人比較像,它因為有身體,所以可以直接跟環境進行互動。這種自主的學習行為實際上可以更加主動,更加積極,其實也更加有創造性。

具身智慧也不能夠脫離傳統的人工智慧範式,具身智慧也一樣需要傳統人工智慧給它進行決策,做規劃,我們覺得具身智慧融合了符號主義、連線主義和行為主義的一種新範式。

具身智慧現在其實也剛剛開始,它面臨著很多的挑戰,我們覺得主要有4個方面的挑戰。

挑戰一,它缺少高效能的具身智慧本體。現在無論是各種具身智慧的傳感器、執行器還是它的整個身體,我們覺得還有很多需要去完善的地方。

挑戰二,具身智慧的運動能力是不足的,尤其體現在它的各種對環境的適應力方面,體現在它的操作能力上面,運動能力還有很大改進的空間。

挑戰三,具身智慧大模型和多模態大模型演算法的能力是不足的,這實際上跟我們人工智慧發展的範式有關系,我們現在看到了更多的具身智慧,看到了機器人很多都是把現在人工智慧的一些演算法直接塞到機器人裏面去,實際上它不能真正的理解世界上的環境,也不真正能夠理解行為智慧,後面還有很大的發展空間。

挑戰四,缺乏具身智慧這個領域裏面統一的通用數據集。就像傳統人工智慧一樣,我們現在傳統人工智慧大量的語音智慧或者是視覺智慧這方面,得益於互聯網上大量語音的數據還有文字的數據。同樣在具身智慧這個領域,我們也需要大量操作的數據,需要大量行為的數據來豐富我們具身智慧的演算法,甚至是具身智慧數據集的標準實際上都是缺的。

基於上面這四種不足,我們開展了在「天工」通用的人形機器人硬體母平台的研究,以及在「開物」多具身智慧體軟體母平台的研究,後面我在這兩個方向分別介紹。

這是我們釋出了第一代的通用機器人的母平台「天工」,我們覺得這個母平台是一個開源開放的平台,我們希望「天工」能夠給大家提供比較好用的具身智慧的硬體智慧,什麽叫好用呢?我覺得有幾個標準。

第一,需要有多種傳感器,能夠比較全面的感知周圍的環境,能夠具有多模態具身感知的能力。

第二,需要有強的運動能力,非常強悍的運動能力。

第三,需要開源開放的環境。

對我們「天工」來說,我們具有多種傳感器的融合,它可以支持更高級的人機互動。多種傳感器首先在視覺這個領域裏面有4個深度視覺感知的網路攝影機,能夠感知各種視覺的資訊,同時它也有聲源定位的麥克風陣列,同樣它有各種力覺的傳感器,比如說在它的手、每個關節能感受到各種力,然後在手部操作的過程中實際上也可以感覺到各種接觸力、觸覺、力覺等等,便於他能夠做很精準的操作,這是感知方面。

另外在復雜場景的透過能力方面,我們實際上也做了非常多研究的工作,主要是它除了在平地上能夠獨立行走以外,我們基於狀態記憶的預測性強化模仿學習的方式,我們按「天工」,按這個機器人能夠適應各種不同的環境,包括像草地、沙地、石子路等等,讓它能夠在各種復雜的環境裏面比較穩定的快速的去透過,我覺得這對機器人未來適應各種各樣的場景具有非常重要的作用。

我們非常關註硬體精細的操作能力,包括上肢在各種不同的環境,比如說超市、危險的場景還有一些特別的場景,精細的操作能力,它跟環境的互動、精細的操作和感知能力。

剛才是硬體方面,在軟體方面在多具身智慧體這個母平台方面,我們也希望能打造一個「一腦多機」、「一腦多能」的具身智慧體,「一腦多機」我們是希望具身智慧體要能夠適應各種形態的具身智慧機器人,包括輪式還有其它的一些型別的機器人,「一腦多能」是希望具身智慧體和我們的機器人能夠在不同的環境裏面比較好的完成它的一些工作。

在多具身智慧體方面,我們實際上正在致力於四個方面技術的突破。

1、在長行程規劃方面進行使用者的拆解,做任務的理解和規劃,尤其是像一些粗向的任務品質,比如說我要機器人去幫我拿一杯水甚至是往後規劃20來步的長行程,其實對機器人的智慧處理要求非常高。

2、希望它有規劃能力,當機器人所面臨的環境變化的時候,它需要去重新進行規劃,而且這個頻率要求蠻高的。

3、操作的多樣性,我們希望說具身智慧體能夠讓機器人適應各種不同的環境,能夠滿足多場景、多工全面的操作能力,甚至是少樣本或者是零樣本的學習,都能夠很好的去適應未來環境的變化。

4、比較好的執行效率和精度。尤其是在一些特定的工作場景,像工業場景可能需要精準的操作,希望它有能夠比較快的節奏、節拍,能夠滿足生產工作任務的需求。

實作路徑怎麽樣呢?我們會采用分布式部署的方式,在雲端利用好大的算力還有超強知識庫的作用,然後把大模型部署在雲端,在邊端可以兼顧效果和效率兩個方向,所以我們可以把一些能夠做規劃、能夠做使用者理解的這些大模型放在邊端,至於機型本體端,因為它能夠部署的算力是非常有限的,所以我們希望把一些高頻的使用者或者是需要少算力的微模型、小模型都放在機器人本體端,透過分布式的實作,能夠很好的去部署,這是不同任務的完成。

為了達到以上的效果,我們還要做兩個基礎的工作,首先是數據的收集。我們希望構建一個資訊稠密度,大規模的,具有通用性的數據集。2024年4月份我們就釋出了具身智慧數據集方案,我們說數據集可以用金字塔的方式來表達數據集結構。底層是大量互聯網數據,中層是仿真數據,上層是高品質真機運算元據。

建這個數據集是希望更多采用仿真數據或者真實場景數據,同時構建數據搜集母機。剛才說人形機器人平台天宮還有其他的合作夥伴已經聯合十幾家合作夥伴共同打造具身智慧數據的母機還有數據套用。最終希望透過數據生態建設能夠支持後面具身智慧套用落地。也構建了像家庭商用的特種環境,工業套用場景,讓不同的機器人在這個場景中不斷執行,搜集這樣的數據集。

另外一方面也建了虛實結合仿真技術,使具身智慧數據集快速叠代。因為真實的機器人操作實際上搜集數據成本比較高,而且速度很慢。但是虛擬的仿真環境,它可以大規模、低成本地搜集各種各樣的數據。所以我們利用已有資產構建了大量的虛擬仿真環境數據搜集場景。比如說抓取、分揀、搬運等等場景建了很多場景,讓機器人在虛擬仿真環境執行,可以快速搜集各種各樣數據。

機器人運動方面也構建了虛擬仿真環境,利用上千個機器人在這個場景進行強化學習、模仿學習方式,快速叠代機器人運動控制演算法。由於構建虛實結合的仿真環境都是來自於實際場景需求,所以有很多接近實際情況的場景。在這種場景訓練出來再匯入實際真機上,效率就很高。

去年達到同樣的效果,虛擬環境下這個效果是真機訓練效果的上千倍,其實具身智慧現在剛剛起步,還有非常多的工作非常多的問題等著我們解鎖,我們也希望借著這個平台可以和國際上更多合作夥伴交流、互動。也希望和大家一起打造國際通用具身智慧標準,包括數據標準、檢測標準等等。正在聯合合作夥伴建立開源開放的平台,包括作業系統、工具鏈等等。

同時,借鑒了其他領域成功經驗,比如自動駕駛、智慧汽車的具身智慧發展經驗,希望建立跨學科跨領域融合創新的模式。最終希望共同拓展全人類的套用場景。馬斯克也說過,未來的社會機器人和人的數量比可能是一比一甚至二比一三比一,機器人的數量可能遠遠超過人類。我們未來面臨的是矽基生命與碳基生命共存的社會,這個可能也面臨著生產力結果變化,還有公眾心態轉變。實際上我們希望機器人套用在生產力結構變化方面,希望機器人盡快匯入高危場景,對人類有傷害或者容易造成工傷的生產場景裏。

另外,人形機器人法律法規方面倫理道德方面也希望有更多和大家交流探討的過程,可以逐步完善法律法規的建設,給到更多的建議。以上是我要給大家匯報的內容,謝謝大家。

(本文根據錄音整理)