关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02372人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

向导掐人中救醒高反昏迷女子反遭掌掴 女子否认"装晕"

都市快报橙柿互动 浏览 156 05-09

OpenAI 呼吁美国政府将芯片法案的税收抵免扩大至 AI 数据中心

IT之家 浏览 329 11-08

中国男篮出征亚洲杯14人名单:裁刘礼嘉仅有两内线 周琦情况待定

醉卧浮生 浏览 10252 07-30

做大佬的长女不狠不行

老斯基财经 浏览 2843 07-16

杠杆资金加速涌入!单日净流入创年内新高,业内:风险整体可控

券商中国 浏览 515 08-20

7名中国游客溺亡于贝加尔湖 31岁幸存者被救细节披露

界面新闻 浏览 272 02-24

NBA生涯最后一场比赛!沃尔12投6中&三分4中2 得到16分7板4助1断

直播吧 浏览 541 08-20

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

LinkFashion 浏览 263 02-04

成本上升、缺芯、亚洲销量下滑,本田汽车全年利润预期下调 21%

IT之家 浏览 350 11-09

6次夺回球权!田中碧当选英超首轮利兹联队内最佳球员

直播吧 浏览 545 08-20

锐评孙发京外卡事件:中网利益熏心还是中国网协卸磨杀驴?

网球之家 浏览 408 09-21

现在整个AI投资逻辑都错了!微软CEO首次承认:成排的H100正在积灰,插不上电

AI寒武纪 浏览 301 11-04

图片报:多特在匈牙利开国际学院,青训项目有助提升曝光与挖新人

直播吧 浏览 3084 07-13

"续面餐馆"遭"正义差评"差评率高达97% 老板:准备关店

山河月明史 浏览 579 08-19

终于被骂到撤档了,活该

独立鱼 浏览 329 09-19

赵露思被业内避雷!直言风险太大不敢用,《恋人》的例子太惨烈

萌神木木 浏览 8590 08-07

BaaS版19.39万预售的乐道L90 起大早赶晚集?

网易汽车 浏览 1851 07-11

加沙停火协议生效后的48小时:人质释放、民众返乡

澎湃新闻 浏览 412 10-14

NASA叫嚣美国"一定会在中国之前登月" 前局长当众拆台

枢密院十号 浏览 474 09-15

伪造虚爱思助手网站传播木马,安全公司曝光 Silver Fox 黑客组织

IT之家 浏览 2409 07-29

中纪委连打三“虎” 三人都被通报“大搞权钱交易”

南方都市报 浏览 1837 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11