大模型打街霸GPT3.5夺冠，新型Benchmark火了

2024-04-01游戏

来源：新浪科技

【#大模型打街霸GPT3.5夺冠#，新型Benchmark火了】让大模型直接操纵格斗游戏【街霸】里的角色，捉对 PK，谁更能打？GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中，两个大模型分别输出答案，再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互，且由游戏引擎中确定的规则评判胜负。

这种新玩法吸引了不少网友来围观。由于项目是在 Mistral 举办的黑客马拉松活动上开发，所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。每个大模型控制一个游戏角色，程序向大模型发送屏幕画面的文本描述，大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

AI 想在格斗游戏里称王，需要哪些硬实力呢？开发者给出几个标准:

反应要快：格斗游戏讲究实时操作，犹豫就是败北

脑子要灵：高手应该预判对手几十步，未雨绸缪

思路要野：常规套路人人会，出奇制胜才是制胜法宝

适者生存：从失败中吸取教训并调整策略

久经考验：一局定胜负不说明问题，真正的高手能保持稳定的胜率

排名结果也很出人意料。经过 342 场对战后，根据棋类、电竞常用的 ELO 算法得出的排行榜如下：最新版 gpt-3.5-turbo 成绩断崖式领先，Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。（量子位）