WRC大咖論道｜荷蘭代爾夫特理工大學教授Jens Kober - 科技

2024-10-24科技

2024世界機器人大會以 「共育新質生產力共享智慧新未來」 為主題，為期三天的主論壇和26場專題論壇上，416位元國內外頂尖科學家、國際組織代表、院士和企業家聚焦前沿技術、產業動向和創新成果，深入研討人工智慧與機器人技術深度融合帶來的新趨勢、新機遇，共同打造了一場十分精彩的機器人領域前沿觀點盛宴！

在8月24日上午的主論壇上，荷蘭代爾夫特理工大學教授Jens Kober以 【機器人透過互動學習】 為主題發表演講。

以下是對話內容實錄

Jens Kober（荷蘭代爾夫特理工大學教授）

大家好，我是來自荷蘭代爾夫特理工大學的教授。我們聽到了不同的機器學習和人工智慧的形式，今天我要聚焦一個專門的領域，我參觀了一下剛才的展館，有一些機器人可以握手，非常有趣。

這是一個人形機器人，它在使用炒鍋，當然這是一個幽默的場景，這種技能需要幾個模組，也是我感興趣的，也是今天我要講的。

剛才一位嘉賓所講的高瞻遠矚的和抽象的理論層面以及和一些基礎的套用層面相比，我是處在中間的層面，我們在模仿學習和強化學習方面進行探討，使機器可以模仿人類，但是就像人類汽車一樣，機器人在復雜的環境下需要不停的學習，一些簡單的動作可以快速的學會，就像我圖片上展示的，左邊是簡單的模仿，右邊是在復雜環境下需要學習。我們如果不能和教練或者教我們的家長互動，就不可能學習和訓練，最重要的不光是獲得一些鼓勵，還告訴我們你應該怎樣練習以及如何改正一些錯誤。

所以我們可以透過不同的方式來互動，我們可以在AI和機器學習上看到越來越多這種模式的發生，我們可以透過互動進行教學，產生類似人類持續的互動，可以給它進行一些額外的演示，定期的間歇性的反饋，有越來越多的機器學習和AI的輸出，包括它給我們帶來各種的利益，包括可以增加執行速度，執行復雜任務，可以讓機器人感知我們的直覺，這是需要我們人類做教師的地方。

不光是人，包括這些動物也可以成為機器人的教師，這就是我們的一個代理人教師和環境對機器人進行的教學，它可以有一些行動、狀態的修正，還有對錯誤進行修正。中間是教師，他可以觀察機器人的現狀以及它是否有出錯，有的時候需要接入，給予一些反饋和修正，有各種的因素可以考慮（作為教師來說），比如進行展示，讓機器人學習，向他展示應該做的是什麽或者是給予反饋，你是做對了還是做錯了，是成功了還是失敗了，這是教師可以做的，對於人類教師來說很簡單，但是能做的也比較有限。

所以對於教師來說，要想做更復雜的反饋和教學，對於人類來說也是比較復雜的一個負擔，比如說導航的方向，比如說向左邊一點、向右邊一點、加速、減速等，這些相對簡單，但是整體的導航就比較復雜。

給大家一些例子，如何將機器學習和教師的反饋進行結合，以及參數的更新，進行最後結果的修正，由教師進行反饋，各種不同的模仿、機器學習和攝動全部放在一起。

後面有一個人用鍵盤比如說操控向左向右移動，這是從0開始的學習，在經過了15次的使用以後，最後它可以用杯子接住球，再放一次慢動作，所以這是基於視覺的量化資訊做出的圖表，它從頭開始學習，使用了一次次的實驗，它的準確度或者說學習的成本不斷降低，藍線是只用介入，只用展示，可以看到它的速度很快，但最後它的水平開始扁平，所以成本也並沒有降到很低。如果看到藍線上，它和綠線基本上是一致的，但是最後它的位置低於綠線，說明機器最後學習的效果更好。

我們之所以對此感興趣，就是可以讓人和機器人進行優勢互補，人類對於模糊的概念，對於設計是比較擅長的，但是在精準的執行這方面是不如機器人的。另外一方面，機器人對於細節的事情，對於執行事物是非常擅長的，它可以進行微調，但是從全域來看事情是不容易的，所以我們可以做一個互補。

我們來看最後一公裏的問題，就是怎樣讓機器人能夠更好的完成最佳化。我跳過這幾頁，下面看一下互動模仿學習，這是從示範當中來學習，從模仿當中進行學習的一種方法。

首先，我們做的互動學習方式是教會機器人一種運動。我們對相應的軌跡並不感興趣，感興趣的是環境互動，也就是施加力控制以及扭矩控制等等。

另外一個案例是考慮到互動不同模態時，這裏考慮到的執行是一方面讓機器人做展示如何移動他的機器臂。如果大家不是機器人專家可能不是很熟悉。一個機器臂展示，另外一個機器臂進行模仿。如果人類和機器人接觸會改變機器人過去的行動軌跡，它施加的力也要變化，這要有即時微調。所以我們這裏要及時切換到不同的互動模式，並且透過六個方向進行控制。

與此同時可以觀察軌跡，右邊紫色部份是有人互動時軌跡變化。另外硬度或者軌跡僵硬度的變化，以此可以進行微調，讓機器人很好地完成剛才展示的移動任務。最開始是非常經典的展示，讓人移動機器手，讓機器臂自己進行復制。我們及時調整，有人手參與時，機器臂需要施加的力比較大，自己運動時不需要那麽大的力。我們有博士生從事這個計畫，改善機器人的僵硬性。做了一定測試之後看一下這個方法是否好用。

這是另外一個案例，這裏挑戰是如何更好地讓機器人完成。在超市裏讓機器人幫忙上貨，這裏在5秒鐘之內完成微調，不然超市老板對此不敢興趣。不僅僅可以辨識移動物體，而且可以控制方向，有另外的模態加速動作。這裏可以透過叠代，拿起拾取時間非常精確，要教會他具有魯棒性的軌跡，確保在時間上的精確性。這是一個即時視訊，沒有快進，就是機器人把飲料放到貨架上一共用5秒鐘時間。

還可以把類似的想法放到其他任務上，可以嘗試不同的任務，比如說把兩個飲料箱疊起來。首先要人去教，用兩個機器臂共同完成。一開始是分別教，發現機器臂協作時會有問題。現在糾正移動，兩個機器臂同時教，與此同時教會兩個機器臂之間的協同。剛才可以看到他們是同步行動的，但是平衡沒有保持得很好，所以這裏又訓練了一遍。要專註於執行任務當中的順序，剛才給大家展示了多種不同方式，如何和機器人進行互動會有不同的模式。

這背後還有更多可以探索的，考慮人扮演更加主動的角色，可以看到藍色這些起泡相當於機器人的老師，它會跳出來說你要這麽做，或者剛才做得不太對，要怎麽糾正，來做一些強化學習。與此同時也可以考慮右上角的機器人扮演主動角色，它在困惑時會主動向它的老師尋求幫助，這裏面也有一些不確定性。就是之前說到的，首先要有示範，然後讓機器人學習。機器人如果學不會可以再問，這也是現在新的方式。

這兩種方式不論教還是學，機器人都需要人類的老師提供幫助，我也希望和大家分享這裏有幾種互動的方法。包括有訊號的演算法，不同地方可以用不同演算法，這是視訊中的展示，我們這裏的任務就是推動箱子到指定位置。

一般情況下需要考慮到平面摩擦力，箱子重量等等。人類老師可以跳出來主動糾正或者機器人主動尋求幫助，要有一個反饋或者輔助，或者機器人問這裏合適的執行任務方法是什麽呢。所以大家可以看到如果您是這篇論文的一作的話這當中有很多的重要內容，實驗室裏有其他的學生他們其實很困惑，我們做事情有很多種選擇，選擇哪一種是最合適的呢？

沒時間放視訊了，但是有這個方法讓機器人完成任務移動物體而且很快速地完成，所以我們把大語言模型把互動學習方式整合到一起，我們使用大語言模型做言語控制，讓人和機器人做什麽，要使用基於這樣的控制板的方式讓機器人知道我們要做拾取移動物體的工作。這裏的挑戰在於經常可能會有一定的不確定度。在這裏如果語言不夠精確或者沒有看過其他人的一些事例的話，機器人可能會困惑，他可能會有兩種選擇。這是一個簡化的設定，我們要給機器人任務的話，他可能是這樣做的。

如果機器人現在不確定是有兩種選擇的，我們要移動物體，會要求澄清，要老師給他們反饋，他們可以從中更加快速學習，而且需要數據量也更低。

這是最後一個展示事例，今天給大家看的絕大多數案例都是單一任務的，但是如果想要把它們整合在一起按順序執行也是很有趣的，這就是我們透過電子部件迴圈利用給出靈感，來做挑戰盒子的方法。首先有一個事例看一下機器人怎麽做，它要拔出再插入這樣的電器元件，可能它不能直接起到作用，我們給機器人一些糾正，並且也有一些指示，幫助他們更精確地定位，或者做視覺輔助完成高精度的韌度給他們提供更多的資訊，讓機器人更好地規劃軌跡完成任務。

下面是讓機器人開啟蓋子，機器人認為這種用線纜繞一下的方式更有效率，不需要額外工具，它可以充分利用自己現有的線纜作為工具，再把電器元件插回去會有其他的任務後續可能做些測試，把它插好之後可能還需要把蓋子再蓋上。

因為時間關系，做個總結。如何透過互動交流來叫機器人，可能有些有趣的益處包括加速機器人學習過程，它可以讓人類老師還有機器人學生之間有優勢互補。對於專業化或者客製化技能這種互動式教學方式非常有用。剛才看到的模型都很好也非常有用，但是總是會有更多的任務可能業界也不希望把自己內部數據都交出來用於模型訓練。所以透過互動式的教學，我們可以完成非常精密、個人化的任務。

我相信在未來可能需要更多的高校教導機器人技能方法，也可以把這種方法和其他的方法整合。剛才說了可以使用大語言模型做更高層序列的規劃。我們可以使用語言模型做任務解讀，告知機器人如何執行任務並且給它們言語上的反饋。

如果大家對此感興趣，可以看到這裏尚未解決的問題是人類希望怎麽教學。所以不光要讓機器人學得有效率，也希望我們教得更有效率，就說到這裏，謝謝大家

（本文根據錄音整理）