关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01521人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

姆巴佩本赛季俱乐部+国家队8场9球2助,仅一场比赛没进球

直播吧 浏览 327 09-21

罗马诺:斯彭斯收到了热刺的续约报价,他很乐意接受

懂球帝 浏览 8700 07-31

9月1日起实施!个人养老金新增3种领取情形

新华社 浏览 539 08-20

豪华映后+绝美周边,终于盼来这个影展!

幕味儿 浏览 9200 07-31

纯电增程双动力 阿维塔12 2025款上市26.99万元起

网易汽车 浏览 478 05-09

长城魏牌汽车,到底被谁“逼急”了?丨正经深度

正经社 浏览 276 01-12

外媒爆料Model 2早已取消,特斯拉高管质疑马斯克

上海汽车报 浏览 501 06-04

空乘穿毛衣上班被吐槽“很土” 山东航空回应

大风新闻 浏览 257 11-09

前部门总经理写45万字网文爆料财务造假?华熙生物:系恶意捏造,已报案追责

深蓝财经 浏览 3737 07-27

克媒:托利奇加盟浙江已达协议,等待替代者加盟就将前往中国

懂球帝 浏览 264 02-04

美图2025上半年:净利润4.67亿元 同比增长71.3%

网易科技报道 浏览 512 08-19

WAIC 2025|摩尔线程全功能GPU为美好世界加速

爱集微 浏览 10148 07-22

她18岁成名,26岁惨遭毁容,70多岁却能和LV联名:人生没有白走的路!

黎贝卡的异想世界 浏览 306 09-30

英超官方解释点球:裁判认为霍尔手臂抬起,不合理地扩大防守面积

直播吧 浏览 472 08-25

鲁比奥"插队"与王毅会面 态度180度转变后又恢复本色

博览历史 浏览 1661 07-15

4500万欧新援!皇马官方:马斯坦托诺北京时间明日19点正式亮相

直播吧 浏览 6986 08-14

沃尔沃XC70:豪华超混第一车的“破局”之道

网易汽车 浏览 441 09-01

媒体:黄仁勋看到中美谈判路径 才敢跑来中国谈新生意

新民周刊 浏览 3019 07-16

乌方用遥控炸弹远程暗杀俄军中校:汽车瞬间被炸飞

扬子晚报 浏览 297 10-31

美军机沿伊朗边界飞行 伊朗寻求外交支持

新华社 浏览 268 01-15

年内涨幅显著,成立以来依然浮亏!曾经的“爆款”基金,规模和持有人显著减少

券商中国 浏览 465 09-01
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11