关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01462人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

商超、电商双渠道下滑,盐津铺子业绩增速创三年最差

国际金融报 浏览 499 08-22

香奈儿2026高级手工坊|最贴近日常的高级奢华

LinkFashion 浏览 228 12-05

以伊停火进展:伊朗已认可方案 以色列先同意停火

新华社 浏览 9518 06-25

福建舰全体官兵列阵 送上硬核祝福

央视军事 浏览 155 01-02

WTT横滨冠军赛赛程来了!5天战斗决出两项冠军,赛事总奖金360万

乒谈 浏览 1626 08-06

三全食品:前瞻性布局即时零售业务 与淘宝、美团、京东等各大平台深化合作

证券时报 浏览 258 02-04

零跑D19定档10月16日,旗舰SUV全球首秀

网易汽车 浏览 385 09-20

悉尼海滩枪击事件已致16死 两名枪手1死1伤系父子关系

扬子晚报 浏览 303 12-15

媒体:日本出口护卫舰 不能和中国出口武器混为一谈

新民周刊 浏览 177 04-22

伊朗逼退美扫雷艇:美方求给15分钟撤退

环球网资讯 浏览 150 04-19

被问是否收到美延长关税暂停期限最终决定 外交部回应

界面新闻 浏览 543 08-12

《清潭国际高中 第二季》,又一全员恶人剧来袭!

伊周潮流 浏览 1600 07-19

台湾媒体人:看到东风5C 第一反应是东风快递全球送达

澎湃新闻 浏览 449 09-04

阿根廷3-0阿尔及利亚!梅西世界杯首次戴帽创纪录 16球升历史第1

我爱英超 浏览 11 06-17

奥尔特曼称10年后最好的工作在外太空 盖茨反对

红星新闻 浏览 448 09-03

偶遇霍建华和朋友聚餐,霍建华喝得满脸通红

素衣读史 浏览 1871 07-17

聂远不让女儿雨天上学,黄磊女儿满口错别字,怪不得星二代要进圈

萌神木木 浏览 254 12-11

王晶爆料张国荣死因引争议,艺术成就不朽

很哥 浏览 2651 07-13

交互体验升级 新款凯迪拉克XT4将于5月25日上市

网易汽车 浏览 540 05-21

奥迪的豪华,是一汽奥迪给的底气

网易汽车 浏览 484 05-15

美股三大指数续创新高!美参议院未通过临时拨款法案

第一财经资讯 浏览 432 09-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11