关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015267人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

德国计划支持乌克兰生产远程武器 还将提供50亿欧元军援

环球网资讯 浏览 982 05-29

反人类的隐藏式门把手,国家终于要管了

差评XPIN 浏览 586 05-10

东风集团权利下放,这家央企新势力要跟华为干件大事

汽扯扒谈 浏览 900 08-06

马赫雷斯:不知道梅西会不会加盟吉达国民,有时会想回欧洲踢球

直播吧 浏览 2993 07-21

磐霖资本迎来收获季:连投6轮的明星企业上市了

投中网 浏览 277 01-11

《东极岛》开始捂嘴了!导演管虎黑历史被扒

萌神木木 浏览 5637 08-10

美军阅兵式细节披露:包括近7000名士兵 70架飞机

央视新闻客户端 浏览 7329 05-22

Qi2.2来了!安卓也能用上苹果同款无线充,但用户却看不上

雷科技 浏览 7930 07-26

具俊晔守大S墓地,献花时不忍落泪

素素娱乐 浏览 4206 07-28

上了年纪的女人,千万别盲目跟风模仿,这些穿衣思路实用优雅

静儿时尚达人 浏览 7920 07-18

甘肃银行“将帅”或迎重大调整,该如何打破增长瓶颈?

Daily每日财报 浏览 7323 08-06

泽连斯基:乌克兰计划2027年加入欧盟

财联社 浏览 234 01-28

AI已能精准定位心梗病变血管,有望提供高效预警信号

第一财经资讯 浏览 10063 07-13

云海肴创始人赵晗突发心梗去世 年仅40岁

界面新闻 浏览 387 09-20

巴克利:掘金、火箭和老鹰是休赛期表现最好的三支球队

懂球帝 浏览 6893 07-28

快把裙子脱了!今夏流行“冰冰裤”,巨时髦巨显瘦!

Yuki女人故事 浏览 10576 06-05

家族企业华新精科系宝马供应商,增收反降利,产能充裕仍扩产

权衡财经 浏览 7263 08-07

格局生变!零跑单月交付再破5万 蔚来逆袭

网易汽车 浏览 445 09-04

一种新型诈骗,正在流行!

智谷趋势 浏览 7567 07-30

范戴克:我们不会忘记这样的结果,必须反思出了哪些问题

懂球帝 浏览 289 11-11

少年曾跪继父坟前痛哭被传考上北大 前央视主持人寻人

极目新闻 浏览 1786 07-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11