关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02336人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

又一“神车”停产了,平民超跑的未来又在何方呢?

江瀚视野 浏览 411 09-20

冰红茶大战开启,有糖茶回归

斑马消费 浏览 6102 08-13

胖东来称博主用AI分析毛巾利润,案件已进入司法程序

大象新闻 浏览 103 05-06

谷歌重新定义"挖人":创始人空降,2倍薪酬当场砸晕40名AI精英!

网易科技报道 浏览 5319 07-16

深夜,全线崩跌!发生了什么?

券商中国 浏览 282 12-02

夏季穿搭原来如此简单!多穿T恤、多穿蓝色,清爽舒适又大方

静儿时尚达人 浏览 427 09-05

外资公募绩优产品持仓曝光!

券商中国 浏览 336 11-03

荣耀护眼学习机火火兔版发布,2999元

IT之家 浏览 261 01-20

同游仍少年!精灵世界空降杭州

时尚COSMO 浏览 300 10-28

“玻璃大王”曹德旺提前退休,儿子曹晖接班后福耀帝国走向何方?

尺度商业 浏览 355 10-20

中年女人别穿短裤、短裙,夏季这么穿更时髦得体,碾压同龄人

静儿时尚达人 浏览 4107 06-15

出门问问2025中期业绩:总收入178.9百万元,亏损收窄99.5%

网易科技报道 浏览 514 08-22

"普特会"安保细节披露:美国特工不能近距离接触普京

上观新闻 浏览 523 08-17

宗庆后事件钟睒睒口碑翻盘,这几年他经历了什么?

BT财经 浏览 2331 07-21

国庆“机票价格跳水”无望:机票裸价涨9.1%

新京报 浏览 372 09-28

曹云金喊话郭德纲:我离开15年 感谢你还持续教我做人

中国新闻周刊 浏览 8766 08-06

2025世界人工智能大会在沪开幕,规模创历届之最

澎湃新闻 浏览 6882 07-26

遭美方逼问"台海出事你们会咋办" 日澳当场表示很惊讶

澎湃新闻 浏览 2226 07-14

记者:贾沙里缺席布鲁日全家福拍摄,他希望最好周六前转会米兰

直播吧 浏览 3553 07-18

15岁女孩在回家途中被同班男同学杀害:遗体被扔路上

大风新闻 浏览 598 08-19

洋河股份变脸!取消70亿保底分红,2025年利润暴雷

杠杆游戏 浏览 256 01-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11