关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015290人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

终结三连败!商竣程取得大满贯第七胜

网球之家 浏览 296 01-20

已攻入24球,广西恒宸费尔南多打破中乙球员单赛季进球纪录

懂球帝 浏览 370 10-21

首映日票房破3亿,别用是否好看评价《731》,观众都不是为了娱乐

最爱酷影视 浏览 386 09-20

知名投资人肖庆平假期遇车祸去世 其投资总额近1亿元

每日经济新闻 浏览 410 10-09

官方:莱比锡门将布拉斯维希加盟勒沃库森,合同至2027年6月30日

直播吧 浏览 569 08-12

公然背刺诋毁 弟子相继“出事”德云社还能走多远

银河史记 浏览 7302 08-08

恭喜!波加查76小时0分32秒卫冕环法总冠军 第4次加冕创纪录

醉卧浮生 浏览 3342 07-28

【年度爱用】她们2025年买得最值的,是这些

黎贝卡的异想世界 浏览 286 01-13

将四季度亮相 岚图泰山轻伪装实车图曝光

车质网 浏览 550 08-25

MiniMax把自家“实习生”放出来了!

量子位 浏览 283 01-21

债市回调!机构称长期配置仍有性价比

国际金融报 浏览 519 08-19

无人攻防实战演练现场 多款最新无人与反无人装备亮相

环球网资讯 浏览 8798 07-22

事关“人工智能+”,国务院出台重磅文件!重点在哪、如何布局?

国是直通车 浏览 520 08-27

上市就官降3万 新款锋兰达变智能了 双擎和燃油版如何选?

蜗牛车志V 浏览 444 09-30

找回状态,李月汝替补出战17分钟砍8分7板1助1帽0失误,投篮5中4

懂球帝 浏览 6264 07-29

21-15,21-8!石宇奇轻松晋级中国公开赛八强,下轮上演国羽内战

全景体育V 浏览 7341 07-25

TVB老戏骨吴博君病逝,生前患渐冻症经济困难,靠患病妻子照顾

萌神木木 浏览 4549 07-16

特朗普亲自督战“天才法案”,稳定币能不能续命“美元霸权”?

宋鸿兵 浏览 2272 07-18

一年跑了17万公里!一蔚来ES8车主被取消终身免费换电权益

深蓝财经 浏览 2809 07-25

接中国男篮这个摊子时有没怕过?郭士强:没有 义不容辞

直播吧 浏览 1572 08-19

召集全球高级将领开会前 美军试射4枚导弹

新民晚报 浏览 398 09-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11