来源:新浪科技
【#大模型打街霸GPT3.5夺冠#,新型Benchmark火了】让大模型直接操纵格斗游戏【街霸】里的角色,捉对 PK,谁更能打?GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互,且由游戏引擎中确定的规则评判胜负。
这种新玩法吸引了不少网友来围观。由于项目是在 Mistral 举办的黑客马拉松活动上开发,所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。
AI 想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:
反应要快:格斗游戏讲究实时操作,犹豫就是败北
脑子要灵:高手应该预判对手几十步,未雨绸缪
思路要野:常规套路人人会,出奇制胜才是制胜法宝
适者生存:从失败中吸取教训并调整策略
久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率
排名结果也很出人意料。经过 342 场对战后,根据棋类、电竞常用的 ELO 算法得出的排行榜如下:最新版 gpt-3.5-turbo 成绩断崖式领先,Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。(量子位)