大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了
- 游戏信息
- 发布时间:2025-05-09 15:45:12

让大模型操控《街霸》角色进行对战,结果如何?
GitHub上出现了一种新的Benchmark,吸引了众多网友的关注。
这种Benchmark引入了AI之间的交互,并由游戏引擎中的规则评判胜负。
在Mistral举办的黑客马拉松活动中,开发者仅使用OpenAI和Mistral系列模型进行了测试。
经过342场对战,最新版gpt-3.5-turbo以显著优势领先,Mistral小杯排第二。
开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。
AI在格斗游戏中要想称王,需要哪些硬实力呢?开发者给出了几个标准。
每个大模型控制一个游戏角色,根据屏幕画面的文本描述,根据双方血量、怒气值、位置、上一个动作等信息做出最优决策。
由于大模型数学能力有限,位置信息以自然语言描述。
在试验中,大模型可以学会复杂的行为,如仅在对手靠近时攻击,使用特殊招式,以及通过跳跃拉开距离。
结果显示,在这个规则下,更大的模型表现越差。
开发者表示,这种新型基准测试为评估大模型的实用性提供了新思路。
现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。
开发者认为,想要赢,要在速度和精度之间做好权衡。