-
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了
让大模型操控《街霸》角色进行对战,结果如何?GitHub上出现了一种新的Benchmark,吸引了众多网友的关注。这种Benchmark引入了AI之间的交互,并由游戏引擎中的规则评判胜负。在Mistral举办的黑客马拉松活动中,开发者仅使用OpenAI和Mistral系列模型进行了测试。经过342场对战
发布时间:2025-05-09 22:19:17
让大模型操控《街霸》角色进行对战,结果如何?GitHub上出现了一种新的Benchmark,吸引了众多网友的关注。这种Benchmark引入了AI之间的交互,并由游戏引擎中的规则评判胜负。在Mistral举办的黑客马拉松活动中,开发者仅使用OpenAI和Mistral系列模型进行了测试。经过342场对战