機器人即將迎來高光時刻 AI構建「通用機器人大腦」

2024-05-06科技

來源：科技日報

圖片來源：【麻省理工科技評論】

誰不想要一個可完全承擔家務的機器人呢？這也是人們對機器人技術發展的一大夢想。

雖然機器人專家已經能夠讓機器人在實驗室做一些像跑酷這樣令人印象深刻的事情，但這都是在嚴格控制的環境中精心規劃展開的。真要讓機器人在你家中自主工作，多少還是讓人不太放心，尤其是在有兒童和寵物的家庭。而且房屋設計各有不同，房間布置、物品擺放更是千差萬別。

在機器人專家中，有一個廣為認可的觀點，稱為「莫拉維克悖論」：對人類來說很難的事情，對機器來說很容易；而對人類來說容易的事情，對機器來說很難。但得益於人工智能(AI)，這種情況正在改變。機器人開始能夠完成諸如疊衣物、烹飪和解除安裝購物籃等任務，而這些在不久前還被視為機器人幾乎不可能完成的任務。

據最新一期【麻省理工科技評論】報道，機器人技術作為一個領域正處於拐點：機器人正在走出實驗室，進入千家萬戶。機器人技術即將迎來自己的高光時刻。

家用機器人不能太貴

過去的機器人就是昂貴的代名詞，高度復雜款價格動輒數十萬美元，這使得大多數家庭無法負擔。例如，PR2是家用機器人最早的叠代產品之一，重200公斤，售價40萬美元。

幸好，新一代更便宜的機器人漸漸出現了。由美國初創公司Hello Robot開發的一款新型家庭機器人Stretch 3，價格就合理得多，24950美元，重量為24.5公斤。它有一個小型移動底座，一根懸掛著網絡攝影機的搖桿，一個可調節手臂和一個末端帶有吸盤的夾具，可透過控制器進行操作。

與此同時，美國史丹福大學研究團隊建立了一個名為Mobile ALOHA(低成本開源硬件遠端操作)的系統，能讓機器人僅借助20個數據(包括人類演示)就學會烹飪蝦。團隊使用現成元件建造出價格更合理的機器人，雖然也要數萬美元，但之前的類似款動輒數十萬美元。

AI構建「通用機器人大腦」

將這批新機器人與「前輩」區分開來的，其實是它們的軟件。由於AI繁榮發展，現在的技術焦點，正在從昂貴機器人實作身體靈巧性轉向，轉變為用神經網絡構建「通用機器人大腦」。

機器人專家正使用深度學習和神經網絡來建立「大腦」系統，以便能在套用中從環境學習並相應調整機器人行為，而不是像傳統的精心規劃和艱苦培訓。

2023年夏天，谷歌公司推出了視覺—語言—行動模型RT-2。該模型能從用於訓練的線上文本和影像以及自身的互動中獲得對世界的一般理解，並把這些數據轉化為機器人操作。

豐田研究所、哥倫比亞大學和麻省理工學院團隊已借助一種稱為模仿學習的AI學習技術以及生成式AI，快速教機器人完成許多新任務。這一方法將推動生成式AI技術從文本、影像和影片領域擴充套件到機器人運動領域。

從OpenAI現已關閉的機器人研究部門分拆出來的初創公司Covariant，則建立了一個多模態模型RFM-1，可接受文本、影像、影片、機器人指令的提示。生成式AI讓機器人能理解指令並生成與這些任務相關的影像或影片。

更多數據催生更智能機器人

GPT-4等大型AI模型的力量，在於從互聯網上囤積大量數據，但這並不適用於機器人，因為機器人需要專門為它們收集的數據。它們需要實物演示如何開啟洗衣機和冰箱、拿起盤子或折疊衣物。現在，這些數據非常稀缺，收集也需要很長時間。

谷歌深度思維公司發起了一項名為「開源X-Embodiment協作」的新計劃，旨在改變這種狀況。去年，該公司與34個實驗室約150名研究人員合作，從22種不同的機器人收集數據，包括Hello Robot的Stretch 3。由此產生的數據集於2023年10月釋出，其中包括機器人的527種技能，例如采摘、推動和移動等。

還有一種稱為RT-X的機器人，研究人員專門為其構建了兩個版本的模型，其既可在各個實驗室的電腦上本地執行，也可透過網絡存取。

更大的、可透過網絡存取的模型是用互聯網數據預先訓練的，以從大型語言和影像模型中發展出「視覺常識」。研究人員在許多不同機器人上執行RT-X模型時，就會發現，這樣的機器人去學習技能的成功率，比每個實驗室獨立開發的系統高出50%。

總而言之，是更多的數據，催生出了更智能的機器人。