新的人工智能驅動的 NoodleBot 將超越尖端機器人系統

2024-05-02科技

西北大學的工程師們建立了一種專門為智能機器人技術量身客製的人工智能（AI）演算法。

新的人工智能（AI）演算法，即最大擴散強化學習（MaxDiff RL），可激勵機器人盡可能隨機地調查周圍環境，以獲得廣泛的經驗。

在與其他人工智能平台的頭對頭試驗中，采用西北大學最新演算法的模擬機器人（如NoodleBot）始終領先於最先進的模型。

據該團隊稱，這種新演算法有助於快速獲取任務，機器人可以掌握新任務並在第一次嘗試時完美地執行它們。這與現有的人工智能模型形成鮮明對比，後者通常依賴於較慢的試錯學習過程。

該團隊的研究細節發表在【 自然機器智能 】雜誌上。

推進機器人數據收集

科學家、工程師和研究人員使用大量人工策劃和過濾的大數據來訓練機器學習演算法。透過反復試驗，人工智能從這個訓練集中獲得知識，並最終實作最佳結果。

然而，該團隊聲稱這種方法不適用於機器人等具身人工智能系統，而適用於非具身系統，如ChatGPT和谷歌雙子座（前身為Bard）。取而代之的是，機器人在沒有人類策展人幫助的情況下自行收集數據。

研究人員強調，傳統演算法在兩個關鍵方面與機器人技術不相容。

「首先，無形系統可以利用物理定律不適用的世界。其次，個人失敗沒有後果，「領導這項研究的西北大學的杜文·貝魯Eta在一份聲明中說。

「對於電腦科學套用來說，唯一重要的是它大部份時間都能成功。在機器人技術領域，一次失敗可能是災難性的，「他補充道。

研究人員的目標是創造一種革命性的演算法，保證機器人在移動時能夠收集高質素的數據，以彌合這一差距。

從根本上說，MaxDiff RL指示機器人以更大的隨機性移動，以收集有關其周圍環境的全面、多樣化的數據。機器人透過自我選擇的隨機體驗進行學習，獲得完成實際任務的基本能力。

更快、更有效的解決方案

采用MaxDiff RL方法的機器人經常在第一次嘗試時就取得任務成功，即使他們沒有先驗知識。

「我們的機器人更快、更敏捷——能夠有效地概括他們所學到的知識並將其套用於新情況。對於機器人無法承受無休止的試錯時間的實際套用，這是一個巨大的好處，「Berrueta強調說。

MaxDiff RL 是一種通用演算法，適用於許多不同的套用。研究人員希望它能為智能機器人的可靠決策開啟大門。

該團隊強調，該演算法並非移動機器人平台所獨有;它也適用於固定機器人，例如廚房機械臂學習裝載洗碗機。

「隨著任務和物理環境變得越來越復雜，在學習過程中考慮具身化的作用變得更加重要，」該研究的研究員兼合著者Allison Pinosky評論道。

「這是邁向執行更復雜、更有趣任務的真實系統的重要一步。