关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02295人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

郭明錤:苹果将于2026年下半年量产其首款折叠iPhone

智通财经 浏览 2289 07-16

尖扎黄河特大桥施工人员:原计划8月底合龙 没想到出事

极目新闻 浏览 592 08-23

修理厂、4S店相继遭遇重大事故,售后企业如何守住安全红线?

AC汽车 浏览 5568 07-18

原来他们是爷俩,冷漠父子藏实力!低调逆袭

章眽八卦 浏览 365 10-16

晕了晕了!科创50刚创近三年新高,机构就疯狂出逃,ETF份额竟跌至近一年新低

每经牛眼 浏览 460 08-23

2025世界人工智能大会:有关AI的三个“灵魂之问”

上观新闻 浏览 1692 07-28

刚刚,冲上热搜!特斯拉新车Model Y L官宣,预计售价约40万元

中国基金报 浏览 2092 07-17

官方称“考上了211”,奔腾新能源转型成色几许

经济观察报 浏览 10307 07-13

今年秋冬最流行的4组搭配,照着穿美出新高度!

LinkFashion 浏览 258 10-29

Win11将聚焦情境感知 AI,支持语音视觉等多模态交互

IT之家 浏览 474 08-19

十年未投产,甘肃水泥龙头转让海外项目

粉巷财经 浏览 4195 07-30

50岁女人赢在气质,夏日穿搭牢记3个原则,减龄利落又高级

静儿时尚达人 浏览 538 08-23

伊姐周日热推:电视剧《完美的救赎》;电视剧《书卷一梦》......

伊周潮流 浏览 5202 06-23

赵露思自爆"被驱魔",圈中的内幕一个比一个荒唐

白面书誏 浏览 9777 08-09

韩国称朝鲜有2吨高浓缩铀足够制造大量核武 中方回应

北京日报 浏览 452 09-26

被指借慈善涉嫌诈骗数千万,道禄和尚“禄”从何来?

界面新闻 浏览 1180 07-16

曹操出行Robotaxi 2.0已搭载低轨卫星通信,将上线卫星SOS功能

IT之家 浏览 255 02-02

癌症的“颠覆性疗法”,中国创新药的“DeepSeek时刻”!最核心的关键词:PD(L)1 bsAb

华尔街见闻官方 浏览 502 09-01

4-3逆转战胜浙江!曹永竞更新社媒:一场场拼下去!

直播吧 浏览 3486 08-11

让“死嘴”会说多说,不太好听又如何

时尚COSMO 浏览 240 11-16

演员澜曦,戏红人不红!看看老公是谁

李橑在北漂 浏览 8477 08-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11