當前位置: 華文世界 > 科技

華人CMU校友自研具身智能機器人,致力於開放場景的商業化落地

2024-02-20科技

早在高中時期,亞可比機器人創始人邱迪聰就已經有將 AI 和機器人進行結合,使後者能夠自主執行各種任務的想法。自此以後,不管是求學,還是工作,其始終圍繞該方向進行探索。

圖 | 邱迪聰(來源:邱迪聰)

比如,在美國卡內基梅隆(CMU)大學機器人學院求學期間,他基於強化學習和人形機器人操作能力做了諸多研究。

走上工作崗位後,他參與或主導過美國航空航天局(NASA,National Aeronautics and Space Administration)火星車研發、L4 級自動駕駛等專案,不但讓地外探測器具備 AI 能力,而且實作長距離自動駕駛的物流運輸和復雜場景人機博弈互動。

正是擁有超過八年 AI 與機器人跨領域研究和落地經驗,以及看到當下 AI 發展的浪潮來臨,邱迪聰決定回國創業,於 2023 年 4 月成立了創業公司亞可比機器人。

目前該公司已經釋出一款具身智能商超服務機器人,可以透過口頭指令讓機器人完成補貨與揀貨等任務。並且,該公司在已獲得奇績創壇(YC 中國)的種子投資。

圖丨亞可比公司釋出的具身智能商超服務機器人(來源:資料圖)

一款能自動補貨和揀貨的具身智能商超服務機器人

據介紹,具身智能作為智能系統的一種設計理念,是指機器能夠透過感知與互動,來完成和現實世界的即時互動。

亞可比公司釋出的這款具身智能商超服務機器人,能夠透過人類語音指令的控制,在商超場景下實作多工執行能力,包括自主巡檢、自動補貨、貨品分揀等功能。

例如,在使用該機器人的過程中,使用者只需要以口頭或文字輸入的形式,提出「貨架上的雪碧不夠了,需要補貨」的需求,機器人就能在不經過任何培訓的情況下,利用「大腦」J-Mind 先將抽象的需求進行推理。

然後自動形成可以執行的動作指令,接著再利用「小腦」J-Box 執行指令,從多類物品中辨識和抓取出雪碧,將其精準地放到貨架的空缺位置中,從而完成自動補貨的功能。

事實上,上述這些主要功能得以實作的背後,主要涉及感知、規劃和執行三個層面的技術。

在感知層面,機器人必須像人一樣,具備對開放世界的場景認知。也就是能「看到」整個場景中的各種物品,並在此基礎上理解使用者的需求。

「為了實作對場景的動態認知,我們主要利用的是視覺基礎模型。我們並不一定要在套用場景裏預先做好數據集采集和標註,而是機器人及我們的基礎模型本身就具有非常強的泛化能力,能夠延伸到它從未‘看’過的東西。」邱迪聰解釋道。

具體地說就是,即便機器人原本只知道有可樂、芬達等飲料,但在看到雪碧這種全新的物品以後,也能大概「猜到」它是一個罐裝飲料,並會借助文字辨識技術對其中的資訊進行讀取,進而實作對新物品的認知。

在規劃層面,機器人透過多模態基礎大模型在理解當下場景和使用者需求的同時,將其轉化為不同的子步驟。

「我們主要利用視覺模態和語言模態,和底層的基礎模型進行對齊,進而讓大模型實作從理解需求、分析場景、到行為決策的轉換。」邱迪聰表示,類比於仿生學,該公司的研發團隊將這項技術命名為「大腦」J-Mind。

在執行層面,機器人需要在真實的物理世界中執行目標任務,並具備良好的泛化和推演能力。具體到貨品分揀任務,則需要做到抓取、操控、放下等動作。

「該部份涉及到‘小腦’J-Box 技術,其將多策略最佳化技術和動態色彩質素渲染的強化學習技術進行結合,能夠在得到基準策略的基礎上,進一步提升機器人執行每個任務的細致程度和泛化能力。」邱迪聰說。

而將三個層面的技術結合在一起之後,就可以幫助機器人完成從感知端到決策端再到行為端,最終到物理世界的執行端的任務全閉環。

從這個角度來說,該機器人相較於那些常見的只能移動或展示廣告資訊的傳統商超機器人,已經實作了一個台階的提升。

與此同時,在大模型技術的賦能下,該機器人能夠在高度動態變化的場景下,基於自身所具備的泛化能力,解決可能出現的各種長尾問題,比如行進過程中出現人或物的阻擋。

另外,想必很多人都有和傳統服務機器人進行對話的經歷,也會發現後者常常出現答非所問的情況,這是因為它只具備辨識某些關鍵詞的能力,無法理解使用者的話語內容。

而該機器人在理解話語的基礎上,還能結合對自身和當下所處世界的狀態的綜合理解,形成自己的想法和行為。

商超只是首個落地場景,未來將向日常生活全方位延伸

那麽,在真實的商超場景下,與工作人員相比,該公司開發的這款機器人,又具有怎樣的表現?

雖然在相同情況下,機器人每完成一次有關理貨、補貨或揀貨的任務指令,大概要花費人類的 2 至 3 倍時間,但在工作量較大的情況下,它能發揮遠超於人力的優勢,包括可以全天候地持續執行,不需要換班。

在後台能透過數據呈現的方式看到每個任務的執行情況,不會出現放貨、揀貨錯誤等人工會產生的疏漏,從而避免商超在管理方面的缺陷。

值得一提的是,該機器人具有內建熱插拔電源,可以在不需要連電的條件下,持續執行超過四個小時,並且能在電量耗盡時快速更換電池,或者自主返回充電。

「目前,我們正在開發下一代機器人以及和行為控制相關的演算法,目標是將機器人完成任務的時間,達到與人類相同甚至更高效的水平。」邱迪聰表示。

據他介紹,雖然該公司選擇在商超場景下打造機器人的多工執行能力,但並非只局限於該場景。其計劃透過不斷提升機器人的開放場景服務能力,以向人們日常生活全方位延伸。

顯而易見,商超裏面銷售的物品,幾乎覆蓋了人類生活的方方面面,無論是在家庭,還是在餐廳,抑或是在辦公室。

「我們希望可以在商超的執行環境中,訓練出機器人對各類物品的認知、對工作人員和顧客的互動,以及處理任務的邏輯等一系列能力,再將其推向人們的生活,讓它能夠獨立地完成更多自主任務,以提升人類的生活幸福感,以及提高整個社會的價值。」邱迪聰說。

將使用者喝完的飲料瓶丟到垃圾桶裏,是該機器人已經擁有的其中一種開放場景服務能力。

研發團隊還在探索其在辦公端、家庭端等其他場景的能力,比如機器人可以作為公司前台,帶領訪客來到會議室,並完成倒水、分發資料等任務;可以作為家庭助手,完成擦桌子、整理衣服等任務。

其中兩位創始人均畢業於 CMU,力爭推動具身智能機器人真正落地

除了創始人邱迪聰該公司還有兩位聯合創始人,分別是同樣於卡內基梅隆大學獲得博士學位的梁俊衛教授,和在機器人營運和商業化方面擁有豐富經驗的湯安。

他們三人基於相同的信念和願景,即通用機器人未來會進入人類生活、服務人類社會,選擇在 AI 浪潮到來的當下參與其中,推動智能機器人的發展。

如上所說,邱迪聰長期專註於 AI 和機器人技術的結合。梁俊衛在影片大模型和具身智能兩方面擁有深厚積累,湯安曾具備數百台量級的無人車車隊營運和落地經驗。

團隊核心成員的結合,給該公司提供了前沿的技術積澱和良好的商業化能力,進而推動上述具身智能解決方案的誕生。

不過,目前該公司還處於初創階段,團隊規模在 10 人左右。據了解,他們正在基於如上所說的種子輪融資布局以下兩方面的事務。

其一,提升「大腦」J-Mind 的能力,讓機器人可以更加通用地理解開放場景,並將其轉化為抽象的行為執行過程。

其二,基於共創模式,與來自商超、藥企、餐飲等領域的客戶共同打磨場景,以大幅地提升面向未來的具身智能機器人的行為能力,並走向真正的落地。

營運/排版:何晨龍