來源:新浪科技
【#大模型打街霸GPT3.5奪冠#,新型Benchmark火了】讓大模型直接操縱格鬥遊戲【街霸】裏的角色,捉對 PK,誰更能打?GitHub 上一種你沒有見過的船新 Benchmark 火了。與 llmsys 大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同 —— 街霸 Bench 引入了兩個 AI 之間的互動,且由遊戲引擎中確定的規則評判勝負。
這種新玩法吸引了不少網友來圍觀。由於計畫是在 Mistral 舉辦的黑客馬拉松活動上開發,所以開發者只使用 OpenAI 和 Mistral 系列模型進行了測試。每個大模型控制一個遊戲角色,程式向大模型發送螢幕畫面的文本描述,大模型根據雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等資訊做出最優決策。
AI 想在格鬥遊戲裏稱王,需要哪些硬實力呢?開發者給出幾個標準:
反應要快:格鬥遊戲講究即時操作,猶豫就是敗北
腦子要靈:高手應該預判對手幾十步,未雨綢繆
思路要野:常規套路人人會,出奇制勝才是制勝法寶
適者生存:從失敗中吸取教訓並調整策略
久經考驗:一局定勝負不說明問題,真正的高手能保持穩定的勝率
排名結果也很出人意料。經過 342 場對戰後,根據棋類、電競常用的 ELO 演算法得出的排行榜如下:最新版 gpt-3.5-turbo 成績斷崖式領先,Mistral 小杯排第二。更小的模型超過了更大的如 GPT-4 和 Mistral 中杯大杯。(量子位)