关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011217人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普称俄为"纸老虎" 普京回应

央视新闻客户端 浏览 232 10-04

进入CBA最想和谁对位?杨曦皓点名周琦,李苑鑫想和赵柏清交手

懂球帝 浏览 9090 07-25

精神病人持铁锤砸路人致1死6伤 坚称自己是过失杀人

极目新闻 浏览 378 09-18

俄方:普京即将开启的访华之旅"史无前例"

参考消息 浏览 482 08-29

他们才是真正的明星夫妻

石场阿鑫 浏览 370 09-06

塞梅尼奥立竿见影,曼城10球隔山敲打阿森纳

体坛周报 浏览 260 01-12

为女性用户打造?“AI女友”后,马斯克预告Grok将推“AI 男友”

IT之家 浏览 1391 07-18

泰国在柬沿海部署8艘军舰 柬埔寨:我们才是受害者

每日经济新闻 浏览 4832 07-27

美团紧急发文

大象新闻 浏览 332 10-31

2025秋冬十大流行色

LinkFashion 浏览 4910 08-13

澎湃读报丨央媒刊文追忆杨振宁先生:心系家国,功在世界

澎湃新闻 浏览 348 10-19

宝妈在朋友圈卖减肥咖啡1年赚6万元 结果被判10年

重案组37号 浏览 466 09-17

有望圆梦世界杯,玻利维亚38岁门将兰珀在赛后跪地痛哭

懂球帝 浏览 362 09-10

罗马仕被曝正亏本清理库存充电宝:27000mAh型号售价45元

IT之家 浏览 266 01-16

微软各部门员工基础年薪曝光

芯智讯 浏览 486 08-22

中金黄金矿难致6死1伤 股价闪崩超8%

观察者网 浏览 6972 07-25

恒大终局:退市!16年地产沉浮,许家印身陷囹圄,一声叹息

密探财经 浏览 7564 08-13

瓜帅:我的生理年龄大概75岁,当教练一个赛季让我少活好几年

懂球帝 浏览 7999 07-28

媒体人:辽宁男篮交易得到吉林顶薪锋线姜宇星!

直播吧 浏览 431 08-20

追觅汽车工厂选址德国柏林

网易科技报道 浏览 406 09-09

“碰一碰”支付背后的“潮汕大佬”冲IPO,小米美团蚂蚁齐押注

野马财经 浏览 1315 07-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11