关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01334人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

斯洛特:迪亚斯正在进行转会谈判,所以没有在友谊赛出场

懂球帝 浏览 9891 07-27

市值超370亿芯片公司,46岁总裁涉嫌内幕交易被立案,相关工作人员:目前正常履职

红星资本局 浏览 512 08-27

寒武纪股价破千,芯片发力猛冲

IPO日报 浏览 503 08-21

亚之杰李军举报歌手陈红,控诉数十亿资产遭违法掠夺!

市值Observation 浏览 372 09-22

二代哈弗H9 2026款上市 限时优惠价17.49万元起

网易汽车 浏览 117 04-29

媒体:日本情报体系迎来根本性重构 威胁的不止东亚

环球网资讯 浏览 50 05-28

媒体:特朗普"书法帖"的愤怒 该令乌克兰有所反思

新民周刊 浏览 2383 08-24

35岁后,我终于敢说“我想要”

虎嗅APP 浏览 343 10-01

软银清仓英伟达,孙正义套现415亿

YOUNG财经 浏览 269 11-12

人形机器人扎堆,大模型卷应用,AI眼镜热闹…细数WAIC2025黑科技

创业邦 浏览 4803 07-27

马里亚努奇:我的特点和拉赫马尼相似,加盟那不勒斯是梦想成真

直播吧 浏览 2755 07-25

被家暴16次女子得70%共同财产及10万赔偿 共140万余元

极目新闻 浏览 353 10-25

豆瓣逆天9.6,世间再无如此大师云集的神作!

幕味儿 浏览 247 12-23

每3辆出口摩托就有1辆“重庆造”:“摩都”走向世界了!丨这座城市有点东西

国是直通车 浏览 429 09-22

俄乌冲突持续 美国时隔十多年再次将核武器部署至英国

环球网资讯 浏览 8829 07-22

小米YU7交付量突破4万台 推出高端定制服务

网易汽车 浏览 327 09-27

埃弗拉:沃尔科特居然拿这支阿森纳和08年曼联比,我真的无语

懂球帝 浏览 146 04-22

郝蕾风波升级?

大龄女一晓彤 浏览 286 11-10

65岁丁嘉丽的遭遇:风流成性终得报应?

手工制作阿歼 浏览 7192 07-26

合计亏超22亿元,牧原、温氏一季度双双转亏

中国基金报 浏览 126 04-22

baby独自带娃返港!一人拖俩行李箱,明星光环背后也是普通妈妈

电影侦探社 浏览 3374 08-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11