关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02371人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国男篮赢球背后4大难题:12助攻22失误 赵睿迷失缺防守尖兵

醉卧浮生 浏览 3009 07-16

最有种的女明星

江湖人称艾掌门 浏览 230 11-01

"苦情"首相白了头 柬埔寨首相洪玛奈的夫人走向台前

现代快报 浏览 578 09-01

租户误将自来水管接入燃气管 致99户居民燃气表"爆表"

封面新闻 浏览 4944 06-24

老板开免费青旅称自己承担房租和水电 已接待4000多人

极目新闻 浏览 541 09-01

人过五十别瞎穿!少碰花衣和紧身裤,这样穿才叫越老越有味道

静儿时尚达人 浏览 325 10-22

硅谷的「十万大裁员」:Meta按代码量裁员

新智元 浏览 344 10-27

莱巴带伤轰16ACE击败张帅,新赛季目标再夺大满贯,小商取开门红

网球之家 浏览 260 01-07

汽车产业链“小鱼”求生:账期压力大,研发难突围!被“大鱼”并购或成新出路

时代周报 浏览 457 09-09

智谱发布新一代基座模型GLM-4.5:开源、高效、低价,专为智能体而生

极客公园 浏览 8323 07-29

古巨基官宣二胎!妻子57岁高龄产子挑战生育极限,网友质疑代孕

萌神木木 浏览 254 01-02

胜利主帅热苏斯:现场80%球迷都为C罗而来,他是世界足坛的典范

直播吧 浏览 502 08-20

机票大跳水 成都20元直飞曼谷

上观新闻 浏览 382 09-14

青艾文宿:酉州古城里的土家智慧居停

商界 浏览 526 08-22

左小青回湖南晒老家日常,爸妈温情出镜

喜欢历史的阿繁 浏览 467 08-25

T-戴维斯和埃利斯的合同都是无保障的 国王裁一个就有名额签威少

直播吧 浏览 5246 07-30

女骑手将女儿装外卖箱送外卖:孩子患恶性肿瘤无人照料

鲁中晨报 浏览 3493 07-21

宋慧乔的短发太好看了!今年想换发型一定不要错过这篇

LinkFashion 浏览 183 01-07

网红坠机起火身亡 村民:我们赶到时人还绑在飞机上

封面新闻 浏览 529 09-29

意媒:未过体检,马特塔交易告吹

体坛周报 浏览 262 02-03

丈夫称妻子转94万给道士买房车买家电 对方:自愿赠与

极目新闻 浏览 4483 07-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11