关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015289人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国斥巨资在非洲"抗中" 项目方却坦言:离不开中国

澎湃新闻 浏览 555 08-25

阿尔特塔:哲凯赖什的进球出自本能;他能与哈弗茨在场上共存

懂球帝 浏览 8629 08-10

女主播被伪装的炸弹包裹炸伤:拿起看了一眼就爆炸了

极目新闻 浏览 354 10-17

她复出拿奖,这次没人笑得出来

独立鱼 浏览 328 10-26

产品未出,估值120亿美元,前OpenAI CTO拿下史上最大种子轮投资

DeepTech深科技 浏览 5435 07-16

德转:24岁马里中场孔特加盟北京国安,球员身价55万欧

懂球帝 浏览 265 02-24

曾志伟合影辱华风波升级!致歉评论区失控,多次陷入争议丑闻事件

果娱 浏览 2077 07-23

零跑D19豪华旗舰SUV完成申报,预计4月上市交付

IT之家 浏览 246 01-09

“卖身”之后,赛百味按下中国快进键

虎嗅APP 浏览 515 08-20

落马女官员被传挖327枚比特币价值1.5亿元 纪委:谣言

潇湘晨报 浏览 484 08-15

《理想足球运动员画像》:威廉·帕乔,低调、谦逊且令人印象深刻!2026年5月27日

绿茵情报局 浏览 73 05-28

阿尔特塔:哲凯赖什已准备好再次出场;球队所做一切皆为争冠

懂球帝 浏览 510 08-23

宝马 iX3 宣传片现神秘四门电动轿车,融合i8与Neue Klasse设计

IT之家 浏览 393 09-20

名记:76人和格莱姆斯的谈判进展缓慢 目前预期是双方至少续约3年

直播吧 浏览 5257 07-18

明星AI独角兽Windsurf被瓜分的背后:资本拉锯、背刺与共识破灭

硅谷101 浏览 1531 07-25

特朗普称欢迎更多中国留学生赴美 外交部回应

北京日报客户端 浏览 388 08-28

印巴关系紧张背景下 印度防长批准隐形战机计划

环球网资讯 浏览 7338 05-28

德媒:训练中被约纳坦-塔踩到脚的斯塔尼希奇并未受重伤

懂球帝 浏览 276 02-04

负债总额已超800亿,亿纬锂能继续“豪赌”储能

侃见财经 浏览 133 04-22

网红潘宏再涉宠物狗死亡风波 狗主人发帖遭网暴

扬子晚报 浏览 1985 08-13

更为优雅 阿斯顿·马丁DB12棕榈滩版官图发布

车质网 浏览 481 05-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11