关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01448人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

湖南卫视评论区沦陷!歌王名单泄露、耳返故障,网友质疑有黑幕

萌神木木 浏览 2400 08-09

纯电/增程双动力 日产NX8上市限时权益价14.99万起

网易汽车 浏览 143 04-10

广东此前买了优先续约权!经纪公司宣:麦考尔加盟广东男篮

直播吧 浏览 323 09-20

番薯依然是番薯!广东夏训仍无进步,还不如张文逸徐昕变化大!

篮球资讯达人 浏览 8181 07-27

MCON推出滑盖外接手柄,致敬PSP Go/Xperia Play滑盖掌机

IT之家 浏览 301 10-17

iCAR V27申报图曝光 尺寸超5米 预计售价20万-30万元

网易汽车 浏览 412 09-11

库里晒参加塔霍湖高尔夫名人赛照片:让我们好好收尾吧

直播吧 浏览 4353 07-13

汉莎航空CEO夫人被指在意度假区撞死路人 已回到德国

红星新闻 浏览 1061 07-14

被特朗普要求辞职后 英特尔CEO陈立武发声

澎湃新闻 浏览 639 08-12

15岁少年离家130多天疑被骗出境做电诈 曾向母亲求救

极目新闻 浏览 465 09-26

马奎尔有望续约终老曼联!阿莫林夏窗拒五队求购,穆帅索帅都想签

罗米的曼联博客 浏览 3370 08-06

“看热闹不嫌事大”的网络围观心态背后,凸显构建这一机制的紧迫性

上观新闻 浏览 7252 08-10

夜读体验史诗级提升:苹果 M5 iPad Pro 屏幕亮度最低为 1 尼特

IT之家 浏览 348 10-18

"普特会"前 欧洲欲与乌克兰划出"共同红线"

参考消息 浏览 6072 08-11

媒体:特朗普"书法帖"的愤怒 该令乌克兰有所反思

新民周刊 浏览 2383 08-24

郑州方特跳楼机载客高空悬停七八分钟 工作人员回应

极目新闻 浏览 478 10-02

十月稻田被调出港股通,短期波动与长期潜力的价值重估

证券市场周刊 浏览 424 09-11

特朗普呼吁立即停火 遭俄方坚决驳斥

财联社 浏览 315 10-22

德云社岳云鹏五姐包大巴车,带亲友们看演唱会

情感大头说说 浏览 340 10-13

应对气候变化 资金缺口达万亿美元

南方都市报 浏览 10129 07-28

又赢了!19岁国乒黑马绝杀日本后势不可挡 高情商发言存大将之风

颜小白的篮球梦 浏览 274 11-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11