當前位置: 華文世界 > 遊戲

大模型打街霸GPT3.5奪冠,新型Benchmark火了

2024-04-01遊戲

來源:新浪科技

【#大模型打街霸GPT3.5奪冠#,新型Benchmark火了】讓大模型直接操縱格鬥遊戲【街霸】裏的角色,捉對 PK,誰更能打?GitHub 上一種你沒有見過的船新 Benchmark 火了。與 llmsys 大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同 —— 街霸 Bench 引入了兩個 AI 之間的互動,且由遊戲引擎中確定的規則評判勝負。

這種新玩法吸引了不少網友來圍觀。由於專案是在 Mistral 舉辦的黑客馬拉松活動上開發,所以開發者只使用 OpenAI 和 Mistral 系列模型進行了測試。每個大模型控制一個遊戲角色,程式向大模型發送螢幕畫面的文本描述,大模型根據雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等資訊做出最優決策。

AI 想在格鬥遊戲裏稱王,需要哪些硬實力呢?開發者給出幾個標準:

反應要快:格鬥遊戲講究即時操作,猶豫就是敗北

腦子要靈:高手應該預判對手幾十步,未雨綢繆

思路要野:常規套路人人會,出奇制勝才是制勝法寶

適者生存:從失敗中吸取教訓並調整策略

久經考驗:一局定勝負不說明問題,真正的高手能保持穩定的勝率

排名結果也很出人意料。經過 342 場對戰後,根據棋類、電競常用的 ELO 演算法得出的排行榜如下:最新版 gpt-3.5-turbo 成績斷崖式領先,Mistral 小杯排第二。更小的模型超過了更大的如 GPT-4 和 Mistral 中杯大杯。(量子位)