关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02278人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李斌说蔚来“钱都亏在了明处”,这些“明处”都是哪儿?

锦缎研究院 浏览 2419 07-17

穆勒:我认为这场美职联决赛非常棒;再次见到梅西他们很开心

懂球帝 浏览 190 12-05

韩国法院将李在明所涉案件重审日期延至大选后

央视新闻客户端 浏览 3241 05-07

小米高管王腾泄密被辞退 本人发声

澎湃新闻 浏览 470 09-09

欧洲提交修改版和平计划 涵盖乌克兰安全保障方式

上观新闻 浏览 162 11-24

等了十年,石宇奇终于说出这句话

后厂村体工队 浏览 324 09-02

大疆官宣首款扫地机器人8月6日发布

三言科技 浏览 906 07-24

富勒姆主帅:约克雷斯终结能力强身体壮,他能适应阿森纳比赛节奏

直播吧 浏览 1834 07-29

命名Peaq 斯柯达全新纯电七座SUV今年发布

车质网 浏览 178 01-14

车展前的狂欢:4天30场发布会,谁在抢跑谁在焦虑?

车市红点 浏览 30 04-22

王力宏新女友疑似曝光,女方和王力宏妈妈跳舞

柠檬有娱乐 浏览 365 09-11

达美航空一波音客机起飞后引擎突然起火 紧急返航

环球网资讯 浏览 6320 07-21

今年秋冬最时髦的穿法:长外套+长裤,太高级了!

LinkFashion 浏览 259 10-27

金价多空拉锯,“黄金+”还靠谱吗?

第一财经资讯 浏览 4271 07-14

特朗普说将对进口半导体产品征收100%关税

浏览 36864 10-30

以军称打死哈马斯一高级领导人 现场画面公布

每日经济新闻 浏览 6793 07-09

WAIC前线|对话燧原科技任树峰:推理是最大增量市场,国产模型的崛起反哺了国产芯片的发展

网易科技报道 浏览 2115 07-30

以军禁止约旦人道主义援助物资进入加沙

北青网-北京青年报 浏览 350 09-19

沪产开源机器人青龙首次“家族式亮相”!大哥1米85,小弟1米45

文汇报 浏览 5117 07-29

"山姆下架好丽友派"吵上热搜 盼盼洽洽改用英文名上架

每日经济新闻 浏览 1832 07-16

阿里业务变更为四大集团:蒋凡"太子"地位稳固

雷递 浏览 452 08-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11