参考指南

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

女友BELL...

7月青海省民...

长城人寿10...

Melody...

海信电视 E...

许家印香港豪...

英诺赛科、联合电子、纳芯微牵手，布局新能源汽车功率电子

U16国足4-1复仇朝鲜！终结热身2连败 15岁红星大四喜+一条龙爆射

男子精神分裂砍死同学的弟弟第二次精神鉴定结果变了

特朗普称俄为＂纸老虎＂普京回应

进入CBA最想和谁对位？杨曦皓点名周琦，李苑鑫想和赵柏清交手

精神病人持铁锤砸路人致1死6伤坚称自己是过失杀人

俄方：普京即将开启的访华之旅＂史无前例＂

他们才是真正的明星夫妻

塞梅尼奥立竿见影，曼城10球隔山敲打阿森纳

为女性用户打造？“AI女友”后，马斯克预告Grok将推“AI 男友”

泰国在柬沿海部署8艘军舰柬埔寨：我们才是受害者

美团紧急发文

2025秋冬十大流行色

澎湃读报丨央媒刊文追忆杨振宁先生：心系家国，功在世界

宝妈在朋友圈卖减肥咖啡1年赚6万元结果被判10年

有望圆梦世界杯，玻利维亚38岁门将兰珀在赛后跪地痛哭

罗马仕被曝正亏本清理库存充电宝：27000mAh型号售价45元

微软各部门员工基础年薪曝光

中金黄金矿难致6死1伤股价闪崩超8%

恒大终局：退市！16年地产沉浮，许家印身陷囹圄，一声叹息

瓜帅：我的生理年龄大概75岁，当教练一个赛季让我少活好几年

媒体人：辽宁男篮交易得到吉林顶薪锋线姜宇星！

追觅汽车工厂选址德国柏林

“碰一碰”支付背后的“潮汕大佬”冲IPO，小米美团蚂蚁齐押注