关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪2025-07-14 12:00:015267人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

德国计划支持乌克兰生产远程武器还将提供50亿欧元军援

环球网资讯浏览 982 05-29

反人类的隐藏式门把手，国家终于要管了

差评XPIN 浏览 586 05-10

东风集团权利下放，这家央企新势力要跟华为干件大事

汽扯扒谈浏览 900 08-06

马赫雷斯：不知道梅西会不会加盟吉达国民，有时会想回欧洲踢球

直播吧浏览 2993 07-21

磐霖资本迎来收获季：连投6轮的明星企业上市了

投中网浏览 277 01-11

《东极岛》开始捂嘴了！导演管虎黑历史被扒

萌神木木浏览 5637 08-10

美军阅兵式细节披露：包括近7000名士兵 70架飞机

央视新闻客户端浏览 7329 05-22

Qi2.2来了！安卓也能用上苹果同款无线充，但用户却看不上

雷科技浏览 7930 07-26

具俊晔守大S墓地，献花时不忍落泪

素素娱乐浏览 4206 07-28

上了年纪的女人，千万别盲目跟风模仿，这些穿衣思路实用优雅

静儿时尚达人浏览 7920 07-18

甘肃银行“将帅”或迎重大调整，该如何打破增长瓶颈？

Daily每日财报浏览 7323 08-06

泽连斯基：乌克兰计划2027年加入欧盟

财联社浏览 234 01-28

AI已能精准定位心梗病变血管，有望提供高效预警信号

第一财经资讯浏览 10063 07-13

云海肴创始人赵晗突发心梗去世年仅40岁

界面新闻浏览 387 09-20

巴克利：掘金、火箭和老鹰是休赛期表现最好的三支球队

懂球帝浏览 6893 07-28

快把裙子脱了！今夏流行“冰冰裤”，巨时髦巨显瘦！

Yuki女人故事浏览 10576 06-05

家族企业华新精科系宝马供应商，增收反降利，产能充裕仍扩产

权衡财经浏览 7263 08-07

格局生变!零跑单月交付再破5万蔚来逆袭

网易汽车浏览 445 09-04

一种新型诈骗，正在流行！

智谷趋势浏览 7567 07-30

范戴克：我们不会忘记这样的结果，必须反思出了哪些问题

懂球帝浏览 289 11-11

少年曾跪继父坟前痛哭被传考上北大前央视主持人寻人

极目新闻浏览 1786 07-17

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

马斯克 Ne...

东方甄选”一...

感觉生活停滞...

拒15亿,A...

“当虚拟恋人...

罗马诺：切尔...

33岁女子不孕不育取卵27颗辅助生殖手术失败9次

阿什拉夫：其他豪门引援工作出色，我们需脚踏实地才能欧冠卫冕

手游行业“腰部”重塑，柠檬微趣、Florere Game收入赶超米哈游

德国计划支持乌克兰生产远程武器还将提供50亿欧元军援

反人类的隐藏式门把手，国家终于要管了

东风集团权利下放，这家央企新势力要跟华为干件大事

马赫雷斯：不知道梅西会不会加盟吉达国民，有时会想回欧洲踢球

磐霖资本迎来收获季：连投6轮的明星企业上市了

《东极岛》开始捂嘴了！导演管虎黑历史被扒

美军阅兵式细节披露：包括近7000名士兵 70架飞机

Qi2.2来了！安卓也能用上苹果同款无线充，但用户却看不上

具俊晔守大S墓地，献花时不忍落泪

上了年纪的女人，千万别盲目跟风模仿，这些穿衣思路实用优雅

甘肃银行“将帅”或迎重大调整，该如何打破增长瓶颈？

泽连斯基：乌克兰计划2027年加入欧盟

AI已能精准定位心梗病变血管，有望提供高效预警信号

云海肴创始人赵晗突发心梗去世年仅40岁

巴克利：掘金、火箭和老鹰是休赛期表现最好的三支球队

快把裙子脱了！今夏流行“冰冰裤”，巨时髦巨显瘦！

家族企业华新精科系宝马供应商，增收反降利，产能充裕仍扩产

格局生变!零跑单月交付再破5万蔚来逆袭

一种新型诈骗，正在流行！

范戴克：我们不会忘记这样的结果，必须反思出了哪些问题

少年曾跪继父坟前痛哭被传考上北大前央视主持人寻人

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

马斯克 Ne...

东方甄选”一...

感觉生活停滞...

拒15亿,A...

“当虚拟恋人...

罗马诺：切尔...

33岁女子不孕不育 取卵27颗辅助生殖手术失败9次

阿什拉夫：其他豪门引援工作出色，我们需脚踏实地才能欧冠卫冕

手游行业“腰部”重塑，柠檬微趣、Florere Game收入赶超米哈游

德国计划支持乌克兰生产远程武器 还将提供50亿欧元军援

反人类的隐藏式门把手，国家终于要管了

东风集团权利下放，这家央企新势力要跟华为干件大事

马赫雷斯：不知道梅西会不会加盟吉达国民，有时会想回欧洲踢球

磐霖资本迎来收获季：连投6轮的明星企业上市了

《东极岛》开始捂嘴了！导演管虎黑历史被扒

美军阅兵式细节披露：包括近7000名士兵 70架飞机

Qi2.2来了！安卓也能用上苹果同款无线充，但用户却看不上

具俊晔守大S墓地，献花时不忍落泪

上了年纪的女人，千万别盲目跟风模仿，这些穿衣思路实用优雅

甘肃银行“将帅”或迎重大调整，该如何打破增长瓶颈？

泽连斯基：乌克兰计划2027年加入欧盟

AI已能精准定位心梗病变血管，有望提供高效预警信号

云海肴创始人赵晗突发心梗去世 年仅40岁

巴克利：掘金、火箭和老鹰是休赛期表现最好的三支球队

快把裙子脱了！今夏流行“冰冰裤”，巨时髦巨显瘦！

家族企业华新精科系宝马供应商，增收反降利，产能充裕仍扩产

格局生变!零跑单月交付再破5万 蔚来逆袭

一种新型诈骗，正在流行！

范戴克：我们不会忘记这样的结果，必须反思出了哪些问题

少年曾跪继父坟前痛哭被传考上北大 前央视主持人寻人

33岁女子不孕不育取卵27颗辅助生殖手术失败9次

德国计划支持乌克兰生产远程武器还将提供50亿欧元军援

云海肴创始人赵晗突发心梗去世年仅40岁

格局生变!零跑单月交付再破5万蔚来逆袭

少年曾跪继父坟前痛哭被传考上北大前央视主持人寻人