近日舉行的GTC大會上,輝達CEO黃仁勛(Jensen Huang)宣布推出通用人形機器人基礎模型計畫——輝達GR00T平台。
黃仁勛表示,GR00T是輝達為波士頓動力、宇樹科技和小鵬鵬行等人形機器人制造商提供的一個專用AI平台。
「構建通用人形機器人的基本模型,是我們今天可以在AI領域解決的最令人興奮的問題之一。這些技術正融合在一起,使世界各地領先的機器人專家,能夠在通用人形機器人領域取得巨大飛躍。」黃仁勛稱,而GR00T這一名字似乎是致敬漫威宇宙的超級英雄Groot。
而在3月23日,GTC大會官方釋出輝達公司研究經理、輝達GearLab實驗室負責人Jim Fan進行的一場接近一個小時左右的演講,題目為【在開放世界中的通用智慧體】。
Jim Fan在演講中詳細整理和分享輝達在「具身智慧」(Embodied AI)、人形機器人平台以及 AI 智慧體(AI Agents)等方面的技術進展。
事實上,所謂「具身智慧」,就是指機器人或智慧系統能夠透過感知器和執行器與其所處的環境進行即時互動,通常具備感知、認知、決策和行動的能力,能夠根據環境的變化做出相應的調整。
與傳統機器人相比,具身智慧對環境的感知和響應能力相對更出色。而且,具身智慧不僅能接收外部資訊,還能理解這些資訊,並作出適當的反應。
在此之前,華人電腦科學家、史丹佛大學教授李飛飛,上海交通大學教授盧策吾等人都曾提出「具身智慧」這一概念技術。
隨著2022年底釋出的ChatGPT風靡全球,在 ITF World 2023 半導體大會上,黃仁勛表示,AI 的下一個浪潮將是「具身智慧」,即能理解、推理、並與物理世界互動的智慧系統,引發全球關註。
今年GTC大會上,黃仁勛在現場展示了由Disney Research研發、由輝達Jetson 機器人芯片驅動的迪士尼機器人。黃仁勛對此非常滿意。
輝達研究經理Jim Fan
Jim Fan透露,今年2月,在黃仁勛的支持下,輝達建立了通用化身智慧體研究實驗室——GearLab,Jim Fan是該實驗室的負責人。他將帶領團隊研究和布局具身智慧、AI 智慧體等下一代 AI 與機器人結合的創新技術。
Jim Fan 是輝達NVIDIA的研究經理(Research Manager),也是「具身智慧」的主導人之一。他主要致力於開發具有泛化能力的自主智慧體。為了應對這個重大挑戰,他的研究涵蓋了基礎模型、政策學習、機器人、多模態學習和大規模系統。他在史丹佛大學獲得了電腦科學博士學位。
在演講中,Jim Fan表示,通用智慧體擁有三大特征——能在開放世界中探索、擁有海量世界知識、能執行無數任務。因此,這一領域技術研究需要足夠開放的環境、大規模預訓練數據和強大的基礎模型。
「讓我們回到基本原則。一個通用智慧體需要具備哪些基本特征呢?我認為有三點。
首先,它應該能夠在一個開放的世界中生存、導航和探索。一個具體的目標只有一個,而這個目標並不是開放的。
其次,世界知識。智慧體應該擁有大量的預訓練知識,而不是僅僅知道環境中的幾個概念。
第三,作為一個通用智慧體,它必須能夠執行多項任務,理想情況下,應該能夠執行無數任務。你只需使用任意語言給出提示詞,智慧體就應該能夠為你完成任務。
因此,我們需要的環境要有足夠的開放性,因為智慧體的復雜性受到環境復雜性的限制。以我們生活的地球為例,正是因為地球的開放性,才催生了名為自然前進演化的演算法,創造出了地球上所有多樣化的生命行為。那麽,我們能否創造一個基本上是低保真度的地球模擬器,但我們仍可以在實驗室的電腦上執行呢?
接下來,我們需要為智慧體提供海量的預訓練數據,因為在如此開放的世界中從零開始探索幾乎是不可能的。這些數據將成為如何操作的參考手冊,更重要的是,它會告訴我們什麽是值得嘗試的有趣事物。
最後,我們需要一個可延伸性強的基礎模型,能將這大規模的數據轉化為可操作的洞察資訊。基於此,我們想到了"我的世界",這是史上最暢銷的視訊遊戲。對於不熟悉的人來說,"我的世界"遊戲是一個由 3D 立體像素程式生成的世界。在這個遊戲中,你可以盡情發揮你的想象力。所以,該遊戲的獨特之處在於,"我的世界"並沒有設定具體的最高得分或要遵循的目標。這使它非常適合作為一個真正開放的環境。」Jim Fan表示。
從AlphaGo、MineCLIP,到Voyager、Eureka、Groot,從具身化(Embodiment)和技能(Skill),從單一形態到多形態,輝達在「具身智慧」和 AI 智慧體方面進行了多年的布局研究,希望能在 AI 通用體方面有所成果。
目前,輝達擁有多模態具身智慧系統Nvidia VIMA,其能在視覺文本提示的指導下,執行復雜任務、獲取概念、理解邊界、甚至模擬物理學——這也標誌著 AI 能力的顯著進步。
「我相信,訓練這種基礎智慧體的過程將和 ChatGPT 非常相似。所有的語言任務都可以被歸類為文本輸入和輸出,無論是寫詩、轉譯,還是做數學。訓練 ChatGPT 就是在大量的文本數據上進行擴大。同樣的,基礎智慧體會接受一個實體化提示詞和指令提示詞作為輸入,然後輸出行動指令。我們只需在大量環境中大規模擴大它。
基礎智慧體是 GearLab 的下一章。昨天,老黃在他的主題演講中宣布了我們路線圖上的一項重要倡議,即 Groot 計畫。我們的目標是為人形機器人構建一個基礎模型。為什麽要選擇人形呢?因為這是最通用的形式。我們所生活的世界是為了適應人類和人類的習慣而形成的。理論上,我們在日常生活中可以做到的所有事情,都可以在足夠先進的人形機器人硬體上實作。因此,我非常興奮能與全球多家領先的人形機器人公司合作,使得 Groot 能夠在不同的實體之間進行遷移。在一個更高的層面上,Groot 可以接受包括語言、視訊和示範等多模態指令,並在模擬以及真實世界中開發技能。」Jim Fan表示。
Jim Fan指出,如今Groot計畫的目標,是為最通用的人形機器人打造基礎模型,透過海量環境訓練獲得通用性,並與各種基礎設施共建生態。而且,未來新的人形機器人不僅會搭載Jensen Thor芯片,並有望在邊緣計算裝置上驅動Groot。
「Groot 是在 OSPO 上誕生的,這是一個新的計算排程系統,用於在 DGX 上提升模型的規模,以及在 OVX 上進行模擬。我們在 Isaac 實驗室為人形機器人執行了許多不同的環境,期望模型能適應各種技能和環境,並能在模擬與真實的場景間無縫遷移,以便我們可以大規模擴充套件訓練,利用 GPU 加速的模擬環境。」Jim Fan在演講中指出。
Jim Fan強調,GEAR 實驗室是一項以使命為驅動的研究。「通用 AI 之路任重道遠,GEAR 實驗室正朝著這一使命不懈努力。」
(本文先發鈦媒體App,作者|林誌佳)