参考指南

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

知情人士回应...

新款Mode...

集微咨询发布...

页岩油超级并...

莫拉青年队教...

意媒：国米派...

予风埃尚申报，定位 3 门 4 座电动微型车

特朗普大闹联合国冯德莱恩次日见到中方态度已经变了

冯巩被问为何缺席杨少华葬礼，沉默不回应？原因可能没那么简单

郭明錤：苹果将于2026年下半年量产其首款折叠iPhone

尖扎黄河特大桥施工人员:原计划8月底合龙没想到出事

修理厂、4S店相继遭遇重大事故，售后企业如何守住安全红线？

原来他们是爷俩，冷漠父子藏实力！低调逆袭

晕了晕了！科创50刚创近三年新高，机构就疯狂出逃，ETF份额竟跌至近一年新低

2025世界人工智能大会：有关AI的三个“灵魂之问”

刚刚，冲上热搜！特斯拉新车Model Y L官宣，预计售价约40万元

官方称“考上了211”，奔腾新能源转型成色几许

今年秋冬最流行的4组搭配，照着穿美出新高度！

Win11将聚焦情境感知 AI，支持语音视觉等多模态交互

十年未投产，甘肃水泥龙头转让海外项目

50岁女人赢在气质，夏日穿搭牢记3个原则，减龄利落又高级

伊姐周日热推：电视剧《完美的救赎》；电视剧《书卷一梦》......

赵露思自爆＂被驱魔＂，圈中的内幕一个比一个荒唐

韩国称朝鲜有2吨高浓缩铀足够制造大量核武中方回应

被指借慈善涉嫌诈骗数千万，道禄和尚“禄”从何来？

曹操出行Robotaxi 2.0已搭载低轨卫星通信，将上线卫星SOS功能

癌症的“颠覆性疗法”，中国创新药的“DeepSeek时刻”！最核心的关键词：PD(L)1 bsAb

4-3逆转战胜浙江！曹永竞更新社媒：一场场拼下去！

让“死嘴”会说多说，不太好听又如何

演员澜曦，戏红人不红！看看老公是谁