关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011238人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国否决加沙停火决议草案后 以美代表亲切握手

看看新闻Knews 浏览 430 09-20

周六“外卖大战”继续!免费喝花茶柠檬水,延续上周“疯狂星期六”外卖潮

红星资本局 浏览 3700 07-13

广东湛江农商银行董事长获批上任,与行长一样、也来自东莞农商行

湘财Plus 浏览 561 08-19

希斯菲尔德:执教多特和拜仁期间我曾多次感到身心俱疲,几乎崩溃

直播吧 浏览 1835 08-12

媒体:"汉光"演习暴露台军大麻烦 而且看不到解决希望

枢密院十号 浏览 2872 07-12

砸1亿元跨界,百亿巨头老板电器杀入机器人赛道

尺度商业 浏览 295 01-21

国乒全体弃赛!雨果&张本美和领衔出战巴西球星赛,总奖金215万

乒谈 浏览 5305 07-30

NewmindAI突破:双路径训练实现AI精准理解土耳其法律

科技行者 浏览 283 01-28

土耳其直接下场参战死磕以色列 叙反对派:戏都懒得演

科技有趣事 浏览 2661 07-21

很运动 全新雷克萨斯ES F SPORT渲染图曝光

车质网 浏览 401 09-28

何猷君入主凯尔特人队成为联合老板 球队估值61亿美元

每日经济新闻 浏览 613 08-21

宗馥莉第二次辞职 娃哈哈集团已经被外界视为"空壳"

中国新闻周刊 浏览 402 10-11

万斯和五角大楼挑明:欧洲 你来为乌克兰安全保障掏钱

澎湃新闻 浏览 648 08-23

深度丨怡园酒业连涨9倍:杨陵江的F2B2C酒饮商业操作系统开启裂变

财经无忌 浏览 286 01-15

暴雨致重庆一车行近90台车被淹 老板:损失高达600万

封面新闻 浏览 1274 07-10

记者:尽管与热刺和切尔西传出绯闻,但托尼1月不会返回英超

懂球帝 浏览 336 10-15

影石 Insta360 Go Ultra 运动相机渲染图曝光

IT之家 浏览 6188 07-31

美俄峰会被指"考验普京" 博尔顿猛批:特朗普已犯错

澎湃新闻 浏览 7602 08-12

这些才是最适合普通人的造型!不用穿大牌、不老套,真实自然

静儿时尚达人 浏览 163 04-18

袁立吐槽章子怡、张国立:有钱能使鬼推磨

冷紫葉 浏览 6669 08-05

阿根廷晋级世青赛决赛,梅西:挺进决赛啦,恭喜所有人

懂球帝 浏览 332 10-18
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11