关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011173人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Stein:小德里克-琼斯被仲裁要向前经纪人支付120万美元佣金

直播吧 浏览 279 09-11

16状元从4000万+到底薪?美媒:本-西蒙斯预计将加盟凯尔特人

直播吧 浏览 1467 07-26

已获海港等队邀约,茹子楠表态站好梅州这班岗:拼到最后一秒

懂球帝 浏览 211 11-17

尤文客战热那亚:伊尔迪兹、孔塞桑、戴维首发,马里奥出战

懂球帝 浏览 333 09-01

TrendForce:边缘 AI 降温,预计多数消费电子今年出货大致持平

IT之家 浏览 2967 08-14

网易直击黄仁勋见面会,他说了这28句话

态℃ 浏览 1819 07-17

上海97-77大胜浙江,李弘权18分,吴前15分,兰道夫27+5

懂球帝 浏览 185 12-24

坑惨!史上最大投资欺诈案,让汇丰三季度少赚78亿

财通社 浏览 252 10-29

找回状态!大坂直美两盘击败陶森,晋级WTA1000蒙特利尔站决赛

直播吧 浏览 3301 08-07

拘留5天 四川眉山东坡公安开出首张无人机"黑飞"罚单

封面新闻 浏览 8570 07-31

知名量化私募陷“内斗风波”,招商证券被卷入其中

第一财经资讯 浏览 7366 08-09

募资逾期难还,*ST沐邦遭股民索赔,又被公开谴责

时代周报 浏览 5968 08-07

退休后能领多少养老金?进来算→

混知财经 浏览 32497 09-11

京东外卖的Plan B是出海

蓝鲸新闻 浏览 881 08-06

张译演技翻车?《以法之名》再演正派被骂固化,观众:不如史今

娱乐白名单 浏览 10346 07-21

一名被通缉的中国黑帮头目被引渡回国 外交部回应

外交部网站 浏览 529 08-26

北京汽车董事长王昊:新媒体的路子必须走,流量主义的思想不能有

红星资本局 浏览 2239 07-14

WAIC前线|B站发布最受年轻人关注的TOP30 AI应用

网易科技报道 浏览 6079 07-27

印度航空两天两起事故:一架飞机起火一架滑出跑道

红星新闻 浏览 9645 07-24

车机系统升级 新款吉利ICON将于7月11日上市

车质网 浏览 2314 07-04

50岁农村大姐脱口秀炸场!被家暴30年,离婚后靠一张嘴逆袭

娱乐白名单 浏览 5168 07-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11