关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:01130人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

有4S店0成交,购置税新政实施6天,哪些车依然好卖?

路咖汽车 浏览 246 01-08

一股不留!全部抵账!被债主围剿5年,宁波首富交出了最后的家底

壹只灰鸽子 浏览 6561 08-10

成龙没想到,这次林凤娇干出这种事?

比利 浏览 466 09-02

米体:罗马想冬窗租借齐尔克泽,若晋级欧冠会自动触发买断

懂球帝 浏览 293 11-27

美媒破大防:越南假想美国入侵 却不忌惮中国

澎湃新闻 浏览 269 02-04

Circle(CRCL.US)的新野心:不想只做发行商,更要成为“稳定币支付时代的Visa”

智通财经 浏览 506 08-20

武汉男子斥不拴绳遛狗被打伤 次日送娃上学遭挑衅尾随

封面新闻 浏览 10180 07-11

油价继续下行,俄赤字激增29%

国际金融报 浏览 551 08-12

最大纯电续航达335km 智己LS8官图发布

车质网 浏览 259 01-22

看了隆妮表演才知道,观众都冤枉杨幂了?

霁月文娱阁 浏览 363 10-13

47岁刘烨老来俏,让儿子诺一尴尬了?

草莓解说体育 浏览 257 12-02

伊萨克遭范德芬剪刀脚,伤病分析师:前者很大可能伤缺8-10周

懂球帝 浏览 241 12-21

TA:森林有意维拉中场雅各布-拉姆塞,桑托看中其多面手属性

直播吧 浏览 2096 07-16

中方提醒中国游客避免前往日本 日媒:或造成重大影响

环球网资讯 浏览 266 11-17

既能当“店小二”,也能捡垃圾!银河通用机器人已在部分城市投用

红星资本局 浏览 5920 08-11

巴黎高定时装周|全世界最美的裙子都在这了

LinkFashion 浏览 9615 07-13

长安启源全新Q05官宣:新央企首款全球小型纯电SUV,头顶激光雷达

IT之家 浏览 6441 08-07

成功首飞 新舟60民用搜救机试飞验证全面开启

看看新闻Knews 浏览 3882 07-26

奔驰2026年大动作: 推15款新车 AI智舱/智驾将覆盖全系产品

网易汽车 浏览 255 01-14

满配华为全家桶 岚图追光L将上市

网易汽车 浏览 241 12-02

俄官宣“末日鱼雷”完成核动力试验

环球网资讯 浏览 340 10-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11