参考指南

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

美国白宫推出...

张维伊彻底把...

区委书记别硬...

徐洁儿浪姐的...

网友过完春节...

上市三周交付...

辛辛那提成大师赛成立以来整500项大赛！且看风云际会！

港股阿里美团京东齐涨，平均涨幅超过2%

加加食品预喜，扭亏为盈

姆巴佩本赛季俱乐部+国家队8场9球2助，仅一场比赛没进球

罗马诺：斯彭斯收到了热刺的续约报价，他很乐意接受

9月1日起实施！个人养老金新增3种领取情形

豪华映后+绝美周边，终于盼来这个影展！

纯电增程双动力阿维塔12 2025款上市26.99万元起

长城魏牌汽车，到底被谁“逼急”了？丨正经深度

外媒爆料Model 2早已取消，特斯拉高管质疑马斯克

空乘穿毛衣上班被吐槽“很土” 山东航空回应

前部门总经理写45万字网文爆料财务造假？华熙生物：系恶意捏造，已报案追责

克媒：托利奇加盟浙江已达协议，等待替代者加盟就将前往中国

美图2025上半年：净利润4.67亿元同比增长71.3％

WAIC 2025｜摩尔线程全功能GPU为美好世界加速

她18岁成名，26岁惨遭毁容，70多岁却能和LV联名：人生没有白走的路！

英超官方解释点球：裁判认为霍尔手臂抬起，不合理地扩大防守面积

鲁比奥＂插队＂与王毅会面态度180度转变后又恢复本色

4500万欧新援！皇马官方：马斯坦托诺北京时间明日19点正式亮相

沃尔沃XC70：豪华超混第一车的“破局”之道

媒体：黄仁勋看到中美谈判路径才敢跑来中国谈新生意

乌方用遥控炸弹远程暗杀俄军中校：汽车瞬间被炸飞

美军机沿伊朗边界飞行伊朗寻求外交支持

年内涨幅显著，成立以来依然浮亏！曾经的“爆款”基金，规模和持有人显著减少