参考指南

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

谷歌 Ten...

香港65公斤...

长宁新设人工...

山东探寻“海...

男子玩滑翔伞...

俄方：乌克兰...

真相来了！前经纪人为保剑锋发声，曝光离婚时间线，实锤男方出轨

落地11万，现在的速腾还能买吗？

高速公路离家不足30米村民被噪音折磨十余年获赔3万

美国否决加沙停火决议草案后以美代表亲切握手

周六“外卖大战”继续！免费喝花茶柠檬水，延续上周“疯狂星期六”外卖潮

广东湛江农商银行董事长获批上任，与行长一样、也来自东莞农商行

希斯菲尔德：执教多特和拜仁期间我曾多次感到身心俱疲，几乎崩溃

媒体：＂汉光＂演习暴露台军大麻烦而且看不到解决希望

砸1亿元跨界，百亿巨头老板电器杀入机器人赛道

国乒全体弃赛！雨果&张本美和领衔出战巴西球星赛，总奖金215万

NewmindAI突破：双路径训练实现AI精准理解土耳其法律

土耳其直接下场参战死磕以色列叙反对派:戏都懒得演

很运动全新雷克萨斯ES F SPORT渲染图曝光

何猷君入主凯尔特人队成为联合老板球队估值61亿美元

宗馥莉第二次辞职娃哈哈集团已经被外界视为＂空壳＂

万斯和五角大楼挑明：欧洲你来为乌克兰安全保障掏钱

深度丨怡园酒业连涨9倍：杨陵江的F2B2C酒饮商业操作系统开启裂变

暴雨致重庆一车行近90台车被淹老板：损失高达600万

记者：尽管与热刺和切尔西传出绯闻，但托尼1月不会返回英超

影石 Insta360 Go Ultra 运动相机渲染图曝光

美俄峰会被指＂考验普京＂博尔顿猛批：特朗普已犯错

这些才是最适合普通人的造型！不用穿大牌、不老套，真实自然

袁立吐槽章子怡、张国立：有钱能使鬼推磨

阿根廷晋级世青赛决赛，梅西：挺进决赛啦，恭喜所有人