大模型打街霸GPT3.5奪冠，新型Benchmark火了

2024-04-01遊戲

來源：新浪科技

【#大模型打街霸GPT3.5奪冠#，新型Benchmark火了】讓大模型直接操縱格鬥遊戲【街霸】裏的角色，捉對 PK，誰更能打？GitHub 上一種你沒有見過的船新 Benchmark 火了。與 llmsys 大模型競技場中，兩個大模型分別輸出答案，再由人類評分不同 —— 街霸 Bench 引入了兩個 AI 之間的互動，且由遊戲引擎中確定的規則評判勝負。

這種新玩法吸引了不少網友來圍觀。由於專案是在 Mistral 舉辦的黑客馬拉松活動上開發，所以開發者只使用 OpenAI 和 Mistral 系列模型進行了測試。每個大模型控制一個遊戲角色，程式向大模型發送螢幕畫面的文本描述，大模型根據雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等資訊做出最優決策。

AI 想在格鬥遊戲裏稱王，需要哪些硬實力呢？開發者給出幾個標準:

反應要快：格鬥遊戲講究即時操作，猶豫就是敗北

腦子要靈：高手應該預判對手幾十步，未雨綢繆

思路要野：常規套路人人會，出奇制勝才是制勝法寶

適者生存：從失敗中吸取教訓並調整策略

久經考驗：一局定勝負不說明問題，真正的高手能保持穩定的勝率

排名結果也很出人意料。經過 342 場對戰後，根據棋類、電競常用的 ELO 演算法得出的排行榜如下：最新版 gpt-3.5-turbo 成績斷崖式領先，Mistral 小杯排第二。更小的模型超過了更大的如 GPT-4 和 Mistral 中杯大杯。（量子位）