當前位置: 華文世界 > 遊戲

大模型玩寶可夢達人類水平!網友喊話世界冠軍:是時候一較高下了

2024-02-12遊戲

西風 發自 凹非寺

量子位 | 公眾號 QbitAI

基於大模型的Agent會玩寶可夢了,人類水平的那種!

名為 PokéLLMon ,現在它正在 天梯對戰 中與人類玩家一較高下:

PokéLLMon能靈活調整策略,一旦發現攻擊無效,立刻改變行動:

PokéLLMon還會運用人類式的消耗戰術,頻繁給對方寶可夢 下毒 ,並一邊恢復自身HP。

不過面對強敵,PokéLLMon也會「慌亂」逃避戰鬥,連續切換寶可夢:

最終對戰結果是,PokéLLMon在 隨機天梯賽中取得49%的勝率 與專業玩家的邀請賽中取得56%的勝率, 遊戲戰略和決策水平接近人類 。

網友看到PokéLLMon的表現也很意外,直呼:

小心被任天堂封禁,這話是認真的。

甚至有網友喊話寶可夢大滿貫選手、世錦賽冠軍 Wolfey Glick ,來和這個AI一較高下:

這究竟是如何做到的?

PokéLLMon大戰人類

PokéLLMon 由佐治亞理工學院研究團隊提出:

具體來說,他們提出了三個關鍵策略。

一是 上下文強化學習 (In-Context Reinforcement Learning) 。

利用從對戰中即時獲得的文字反饋作為一種新的「獎勵」輸入,不需要訓練就可以線上叠代完善和調整PokéLLMon的決策生成策略。

其中反饋內容包括:回合HP變化、攻擊效果、速度優先級、招式額外效果等。

比如PokéLLMon反復使用相同的攻擊招式,但由於對方寶可夢具有「幹燥皮膚」的能力,對其沒有任何效果。

在第三回合中對戰中,透過即時上下文強化學習,PokéLLMon隨後選擇更換寶可夢。

二是 知識增強生成 (Knowledge-Augmented Generation) 。

透過檢索外部知識源作為額外輸入,融入到狀態描述中。比如檢索類別關系、招式數據,模擬人類查詢寶可夢圖鑒,來減少未知知識導致的「幻覺」問題。

由此一來,PokéLLMon可以準確理解並套用招式效果。

比如面對犀牛前進演化形態的 地面攻擊 ,PokéLLMon未選擇更換寶可夢,而是施展「電磁飄浮」,該技能在五回合內成功抵禦地面攻擊,使犀牛的「地震」技能無效。

三是 一致性動作生成 (Consistent Action Generation) 。

研究人員發現,當PokéLLMon面對強大對手時,思維鏈(CoT) 的推理方式會導致它因「恐慌」而頻繁更換道具或寶可夢。

△PokéLLMon害怕,不斷切換寶可夢

而透過一致性動作生成,可以獨立多次生成行動,投票出最一致的,從而緩解「恐慌」。

值得一提的是,研究人員所用的模型自主和人類作戰的寶可夢 對戰環境 ,基於Pokemon Showdown和poke-env實作,目前 已開源

為了測試PokéLLMon的對戰能力,研究人員用它分別與隨機天梯賽玩家和一名擁有 15年經驗 的專業玩家對戰。

結果,PokéLLMon與天梯隨機玩家的勝率為48.57%,與專業玩家的邀請對戰勝率為56%。

總的來說,PokéLLMon的優勢在於:能準確選擇有效招式,統一使用一個寶可夢擊倒全部對手;展現出類人的消耗戰略,使對手中毒後再拖延回血。

不過研究人員也指出了PokéLLMon的不足之處,面對玩家的消耗戰略(拖延回血) 很難應對:

容易被玩家的迷惑戰術誤導(迅速切換寶可夢,巧妙使PokéLLMon浪費強化攻擊機會) :

團隊簡介

三位作者均為華人學者。

論文一作 胡思昊 ,現為佐治亞理工學院電腦科學博士生,本科畢業於浙江大學,曾在新加坡國立大學擔任研究助理。

研究興趣包括用於區塊鏈安全和推薦系統的資料探勘演算法及系統。

作者 Tiansheng Huang ,同為佐治亞理工學院電腦科學博士生,華南理工大學校友。

研究興趣包括分布式機器學習、並列與分布式計算、最佳化演算法以及機器學習安全性。

導師 劉玲 ,現為佐治亞理工學院電腦系教授。1982年畢業於中國人民大學,1993年於荷蘭蒂爾堡大學獲博士學位。

劉教授主導分布式數據密集系統實驗室(DiSL) 的研究工作,專註於大數據系統及其分析的多個方面,如效能、安全和私密等。

同時她也是IEEE Fellow,2012年獲得IEEE電腦學會技術成就獎,還曾擔任多個IEEE和ACM大會主席。

參考連結:
[1]https://twitter.com/_akhaliq/status/1754337188014100876
[2]https://poke-llm-on.github.io/

— 完 —

量子位 QbitAI · 頭條號簽約

關註我們,第一時間獲知前沿科技動態