关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011237人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黄仁勋闯进全球亿万富豪榜前10 与巴菲特只差10亿美元

界面新闻 浏览 1503 07-12

被曲解的雷军:“安全至上”与“好看第一”并不冲突

虎嗅APP 浏览 290 11-17

普京:若使用"战斧"导弹袭击俄领土 将招致惊人回应

环球网资讯 浏览 371 10-26

大力押注AI,软银增持英伟达、台积电,Q2盈利也稳了?

华尔街见闻官方 浏览 9176 08-06

"地表最难乒乓球赛"上 全运会卫冕冠军王曼昱差点输了

澎湃新闻 浏览 281 11-12

黄子韬婚礼险翻车!许艺洋喊错男朋友

林木体育解说 浏览 395 10-20

惊呆!广州照明大王,四个创始人竟然公开内斗!

深蓝财经 浏览 6184 08-10

高管聚餐后心脏骤停昏迷3个月 妻子怀疑同事曾劝酒

极目新闻 浏览 1006 08-10

万科三季度净利润亏损160.69亿,深铁今年第十次“输血”

财视传播 浏览 342 10-31

许凯待播剧还能播吗?

韩小娱 浏览 404 09-09

特朗普宣布对八个国家的关税税率 最高50%

财联社 浏览 8103 07-10

男子当街用铁锤砸死女子 家属:妈妈头骨上有7个坑

扬子晚报 浏览 494 09-18

对话商汤科技首席科学家林达华:生成不等于完成,AI创作的关键是理解人的意图

时代周报 浏览 5465 07-29

吴梦洁:女排精神支撑队伍逆转,未来我们会给大家带来更多惊喜

直播吧 浏览 7981 07-14

李彬彬|一个生态保护者的守望之心

时尚COSMO 浏览 178 04-09

乘风2026偷拍事件未平,宿舍甲醛超标质疑又起

俺家住楼房 浏览 64 05-28

康师傅换帅!创始人之子接棒CEO,去年薪酬937万元

中国基金报 浏览 250 12-19

什么时候才能停止对马思纯身材的审视?

时尚COSMO 浏览 6230 08-02

美前驻华大使不装了:凭啥和中国组G2划"势力范围"

观察者网 浏览 327 10-11

理想汽车段吉超:造车这件事,可以借鉴零售业的胖东来模式

经济观察报 浏览 262 12-15

能当PC用的平板电脑!小米平板8 Pro测评:骁龙8至尊打造的安卓平板生产力天花板

快科技 浏览 453 09-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11