當前位置：華文世界 > 遊戲

大模型玩寶可夢達人類水平！網友喊話世界冠軍：是時候一較高下了

2024-02-12遊戲

西風發自凹非寺

量子位 | 公眾號 QbitAI

基於大模型的Agent會玩寶可夢了，人類水平的那種！

名為 PokéLLMon ，現在它正在 天梯對戰 中與人類玩家一較高下：

PokéLLMon能靈活調整策略，一旦發現攻擊無效，立刻改變行動：

PokéLLMon還會運用人類式的消耗戰術，頻繁給對方寶可夢下毒，並一邊恢復自身HP。

不過面對強敵，PokéLLMon也會「慌亂」逃避戰鬥，連續切換寶可夢：

最終對戰結果是，PokéLLMon在 隨機天梯賽中取得49%的勝率 ， 與專業玩家的邀請賽中取得56%的勝率， 遊戲戰略和決策水平接近人類。

網友看到PokéLLMon的表現也很意外，直呼：

小心被任天堂封禁，這話是認真的。

甚至有網友喊話寶可夢大滿貫選手、世錦賽冠軍 Wolfey Glick ，來和這個AI一較高下：

這究竟是如何做到的？

PokéLLMon大戰人類

PokéLLMon 由佐治亞理工學院研究團隊提出：

具體來說，他們提出了三個關鍵策略。

一是 上下文強化學習 （In-Context Reinforcement Learning）。

利用從對戰中即時獲得的文字反饋作為一種新的「獎勵」輸入，不需要訓練就可以線上叠代完善和調整PokéLLMon的決策生成策略。

其中反饋內容包括：回合HP變化、攻擊效果、速度優先級、招式額外效果等。

比如PokéLLMon反復使用相同的攻擊招式，但由於對方寶可夢具有「幹燥皮膚」的能力，對其沒有任何效果。

在第三回合中對戰中，透過即時上下文強化學習，PokéLLMon隨後選擇更換寶可夢。

二是 知識增強生成 （Knowledge-Augmented Generation）。

透過檢索外部知識源作為額外輸入，融入到狀態描述中。比如檢索類別關系、招式數據，模擬人類查詢寶可夢圖鑒，來減少未知知識導致的「幻覺」問題。

由此一來，PokéLLMon可以準確理解並套用招式效果。

比如面對犀牛前進演化形態的 地面攻擊 ，PokéLLMon未選擇更換寶可夢，而是施展「電磁飄浮」，該技能在五回合內成功抵禦地面攻擊，使犀牛的「地震」技能無效。

三是 一致性動作生成 （Consistent Action Generation）。

研究人員發現，當PokéLLMon面對強大對手時，思維鏈（CoT）的推理方式會導致它因「恐慌」而頻繁更換道具或寶可夢。

△PokéLLMon害怕，不斷切換寶可夢

而透過一致性動作生成，可以獨立多次生成行動，投票出最一致的，從而緩解「恐慌」。

值得一提的是，研究人員所用的模型自主和人類作戰的寶可夢 對戰環境 ，基於Pokemon Showdown和poke-env實作，目前 已開源 。

為了測試PokéLLMon的對戰能力，研究人員用它分別與隨機天梯賽玩家和一名擁有 15年經驗 的專業玩家對戰。

結果，PokéLLMon與天梯隨機玩家的勝率為48.57%，與專業玩家的邀請對戰勝率為56%。

總的來說，PokéLLMon的優勢在於：能準確選擇有效招式，統一使用一個寶可夢擊倒全部對手；展現出類人的消耗戰略，使對手中毒後再拖延回血。

不過研究人員也指出了PokéLLMon的不足之處，面對玩家的消耗戰略(拖延回血) 很難應對：

容易被玩家的迷惑戰術誤導（迅速切換寶可夢，巧妙使PokéLLMon浪費強化攻擊機會）：

團隊簡介

三位作者均為華人學者。

論文一作 胡思昊 ，現為佐治亞理工學院電腦科學博士生，本科畢業於浙江大學，曾在新加坡國立大學擔任研究助理。

研究興趣包括用於區塊鏈安全和推薦系統的資料探勘演算法及系統。

作者 Tiansheng Huang ，同為佐治亞理工學院電腦科學博士生，華南理工大學校友。

研究興趣包括分布式機器學習、並列與分布式計算、最佳化演算法以及機器學習安全性。

導師劉玲，現為佐治亞理工學院電腦系教授。1982年畢業於中國人民大學，1993年於荷蘭蒂爾堡大學獲博士學位。

劉教授主導分布式數據密集系統實驗室（DiSL）的研究工作，專註於大數據系統及其分析的多個方面，如效能、安全和私密等。

同時她也是IEEE Fellow，2012年獲得IEEE電腦學會技術成就獎，還曾擔任多個IEEE和ACM大會主席。

參考連結：
[1]https://twitter.com/_akhaliq/status/1754337188014100876
[2]https://poke-llm-on.github.io/

— 完 —

量子位 QbitAI · 頭條號簽約

關註我們，第一時間獲知前沿科技動態

Copyright © 2024 www.aqiusha.com NO.1 華文世界

商務合作：xingwa#jasve.com（傳送郵件請將#換成@）