关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪2025-07-14 12:00:015290人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

终结三连败！商竣程取得大满贯第七胜

网球之家浏览 296 01-20

已攻入24球，广西恒宸费尔南多打破中乙球员单赛季进球纪录

懂球帝浏览 370 10-21

首映日票房破3亿，别用是否好看评价《731》，观众都不是为了娱乐

最爱酷影视浏览 386 09-20

知名投资人肖庆平假期遇车祸去世其投资总额近1亿元

每日经济新闻浏览 410 10-09

官方：莱比锡门将布拉斯维希加盟勒沃库森，合同至2027年6月30日

直播吧浏览 569 08-12

公然背刺诋毁弟子相继“出事”德云社还能走多远

银河史记浏览 7302 08-08

恭喜！波加查76小时0分32秒卫冕环法总冠军第4次加冕创纪录

醉卧浮生浏览 3342 07-28

【年度爱用】她们2025年买得最值的，是这些

黎贝卡的异想世界浏览 286 01-13

将四季度亮相岚图泰山轻伪装实车图曝光

车质网浏览 550 08-25

MiniMax把自家“实习生”放出来了！

量子位浏览 283 01-21

债市回调！机构称长期配置仍有性价比

国际金融报浏览 519 08-19

无人攻防实战演练现场多款最新无人与反无人装备亮相

环球网资讯浏览 8798 07-22

事关“人工智能+”，国务院出台重磅文件！重点在哪、如何布局？

国是直通车浏览 520 08-27

上市就官降3万新款锋兰达变智能了双擎和燃油版如何选？

蜗牛车志V 浏览 444 09-30

找回状态，李月汝替补出战17分钟砍8分7板1助1帽0失误，投篮5中4

懂球帝浏览 6264 07-29

21-15，21-8！石宇奇轻松晋级中国公开赛八强，下轮上演国羽内战

全景体育V 浏览 7341 07-25

TVB老戏骨吴博君病逝，生前患渐冻症经济困难，靠患病妻子照顾

萌神木木浏览 4549 07-16

特朗普亲自督战“天才法案”，稳定币能不能续命“美元霸权”？

宋鸿兵浏览 2272 07-18

一年跑了17万公里！一蔚来ES8车主被取消终身免费换电权益

深蓝财经浏览 2809 07-25

接中国男篮这个摊子时有没怕过？郭士强：没有义不容辞

直播吧浏览 1572 08-19

召集全球高级将领开会前美军试射4枚导弹

新民晚报浏览 398 09-28

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

7月暑期档，...

曝手机界大神...

77岁老人在...

“批评是工作...

帕尔马重逢马...

芝麻开门，中...

全智贤给了韩娱4年，归来还是0人能打？

突破40年Dijkstra算法瓶颈，清华教授等颠覆教科书！斩获STOC最佳论文

沃尔13年NBA生涯总薪资达2.76亿美元签过最大合同为4年1.71亿

终结三连败！商竣程取得大满贯第七胜

已攻入24球，广西恒宸费尔南多打破中乙球员单赛季进球纪录

首映日票房破3亿，别用是否好看评价《731》，观众都不是为了娱乐

知名投资人肖庆平假期遇车祸去世其投资总额近1亿元

官方：莱比锡门将布拉斯维希加盟勒沃库森，合同至2027年6月30日

公然背刺诋毁弟子相继“出事”德云社还能走多远

恭喜！波加查76小时0分32秒卫冕环法总冠军第4次加冕创纪录

【年度爱用】她们2025年买得最值的，是这些

将四季度亮相岚图泰山轻伪装实车图曝光

MiniMax把自家“实习生”放出来了！

债市回调！机构称长期配置仍有性价比

无人攻防实战演练现场多款最新无人与反无人装备亮相

事关“人工智能+”，国务院出台重磅文件！重点在哪、如何布局？

上市就官降3万新款锋兰达变智能了双擎和燃油版如何选？

找回状态，李月汝替补出战17分钟砍8分7板1助1帽0失误，投篮5中4

21-15，21-8！石宇奇轻松晋级中国公开赛八强，下轮上演国羽内战

TVB老戏骨吴博君病逝，生前患渐冻症经济困难，靠患病妻子照顾

特朗普亲自督战“天才法案”，稳定币能不能续命“美元霸权”？

一年跑了17万公里！一蔚来ES8车主被取消终身免费换电权益

接中国男篮这个摊子时有没怕过？郭士强：没有义不容辞

召集全球高级将领开会前美军试射4枚导弹

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

7月暑期档，...

曝手机界大神...

77岁老人在...

“批评是工作...

帕尔马重逢马...

芝麻开门，中...

全智贤给了韩娱4年，归来还是0人能打？

突破40年Dijkstra算法瓶颈，清华教授等颠覆教科书！斩获STOC最佳论文

沃尔13年NBA生涯总薪资达2.76亿美元 签过最大合同为4年1.71亿

终结三连败！商竣程取得大满贯第七胜

已攻入24球，广西恒宸费尔南多打破中乙球员单赛季进球纪录

首映日票房破3亿，别用是否好看评价《731》，观众都不是为了娱乐

知名投资人肖庆平假期遇车祸去世 其投资总额近1亿元

官方：莱比锡门将布拉斯维希加盟勒沃库森，合同至2027年6月30日

公然背刺诋毁 弟子相继“出事”德云社还能走多远

恭喜！波加查76小时0分32秒卫冕环法总冠军 第4次加冕创纪录

【年度爱用】她们2025年买得最值的，是这些

将四季度亮相 岚图泰山轻伪装实车图曝光

MiniMax把自家“实习生”放出来了！

债市回调！机构称长期配置仍有性价比

无人攻防实战演练现场 多款最新无人与反无人装备亮相

事关“人工智能+”，国务院出台重磅文件！重点在哪、如何布局？

上市就官降3万 新款锋兰达变智能了 双擎和燃油版如何选？

找回状态，李月汝替补出战17分钟砍8分7板1助1帽0失误，投篮5中4

21-15，21-8！石宇奇轻松晋级中国公开赛八强，下轮上演国羽内战

TVB老戏骨吴博君病逝，生前患渐冻症经济困难，靠患病妻子照顾

特朗普亲自督战“天才法案”，稳定币能不能续命“美元霸权”？

一年跑了17万公里！一蔚来ES8车主被取消终身免费换电权益

接中国男篮这个摊子时有没怕过？郭士强：没有 义不容辞

召集全球高级将领开会前 美军试射4枚导弹

沃尔13年NBA生涯总薪资达2.76亿美元签过最大合同为4年1.71亿

知名投资人肖庆平假期遇车祸去世其投资总额近1亿元

公然背刺诋毁弟子相继“出事”德云社还能走多远

恭喜！波加查76小时0分32秒卫冕环法总冠军第4次加冕创纪录

将四季度亮相岚图泰山轻伪装实车图曝光

无人攻防实战演练现场多款最新无人与反无人装备亮相

上市就官降3万新款锋兰达变智能了双擎和燃油版如何选？

接中国男篮这个摊子时有没怕过？郭士强：没有义不容辞

召集全球高级将领开会前美军试射4枚导弹