关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01394人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

从夸克眼镜,到豆包手机,为什么巨头扎堆端侧AI?

华尔街见闻官方 浏览 176 12-02

潘功胜最新讲话7大要点!涉稳定币,信息量满格

21金融圈 浏览 225 10-28

抗日名将孙立人次子已正式向大陆申请 将父亲迁葬故里

环球时报新闻 浏览 297 10-29

巴尔韦德:皇马有我信任的理疗师,我都听他的

懂球帝 浏览 132 03-11

宇树科技发布第三款人形机器人UnitreeR1

财联社 浏览 6431 07-26

SpaceX 星舰 9 号飞行事故调查结束,第十次试飞箭在弦上

IT之家 浏览 428 08-19

"谭队长"主动投案后牵出系统性腐败问题 20多人被查处

政知新媒体 浏览 422 08-19

伊以冲突范围还在扩大 特朗普称愿让普京做调解人

上观新闻 浏览 3774 06-17

俄罗斯誓言:“报复不可避免”

上观新闻 浏览 9383 06-05

贝克汉姆近照炸锅,盘点被头发"抛弃"的男神:有人植发有人躺平

娱乐白名单 浏览 3190 08-05

C罗再谈曼联:架构出错阿莫林无法创奇迹,为此难过希望尽快复兴

罗米的曼联博客 浏览 246 11-05

下周,A股还能不能修复?分析来了

每经牛眼 浏览 221 10-19

达索的遮羞布与“阵风”折戟,谎话越描越黑

浏览 1948 07-14

TA:尤文逐渐展现出斯帕莱蒂所期望的风格,形成了独特的打法

懂球帝 浏览 172 01-27

iPhone将砍掉相机控制按键!曝苹果已停止订购元件:没啥用还贵

快科技 浏览 404 08-20

货币的真相:不只是冰冷数字,更是连接经济和生活的纽带

上观新闻 浏览 359 09-20

李肖爽发文回应青岛小米汽车事故:系碰撞致副驾易燃物起火

网易汽车 浏览 435 06-11

乌试射"最成功导弹" 专家:可能改变区域军事平衡

澎湃新闻 浏览 502 08-23

吉利发布行业首个AI座舱,超拟人情感智能体Eva上车

环球网资讯 浏览 424 08-21

大咖对话:从L2到L4,如何破解高阶智驾落地难题

网易汽车 浏览 191 12-10

于正曝吴谨言被女明星换角:半年苦熬只拿5000块

探长影视解说 浏览 9919 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11