关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01465人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf：首个面向具身智能的“渲训推一体化”大规模强化学习框架。

人工智能正在经历从 “感知” 到 “行动” 的跨越式发展，融合大模型的具身智能被认为是人工智能的下一发展阶段，成为学术界与工业界共同关注的话题。

在大模型领域，随着 o1/R1 系列推理模型的发布，模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习（Reinforcement Learning, RL）。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时，能够将大规模算力高效利用的 RL infra 的重要性也日益凸显，近期也涌现出一批优秀的框架，极大地促进了该领域的发展。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

怼球迷你能得到什么？KD：只有被攻击/嘲讽但我得提供这项服务

直播吧浏览 531 08-12

没听说过1.6T光模块测试公司，Q1利润增速超500%！ | 0421

虎嗅APP 浏览 165 04-22

打通机器人产业全链条，粤港澳大湾区应用场景创新中心揭牌

南方都市报浏览 1599 07-13

精彩推荐

中孚信息再现高管被留置公司治理隐忧加剧引市场震荡

经理人杂志浏览 4862 07-25

马斯克xAI官宣：Grok 4向全球所有用户免费开放！

智东西浏览 544 08-11

10倍股的崩塌

诗与星空浏览 473 08-11

从夸克眼镜，到豆包手机，为什么巨头扎堆端侧AI?

华尔街见闻官方浏览 261 12-02

1欧元买18架战机罗马尼亚与荷兰以＂象征性价格＂签署购机合同

环球网资讯浏览 299 11-05

夫妇盯上2‰自然损耗规则上千吨粮食遭盗卖价值500万

CCTV今日说法浏览 364 10-21

科学运动健身享健康请避开这6个误区

人民网浏览 5174 08-09

英媒：美在芯片货物中安追踪器以发现是否转运至中国

环球时报浏览 9547 08-14

S妈现身大S雕像揭幕仪式，S家人穿黑衣现身，纪念碑刻着“S”字样

素素娱乐浏览 267 02-03

千亿巨头奖励员工21枚黄金键帽空格键重35克价值近4万

每日经济新闻浏览 357 10-26

国家，给人工智能定了新调子

米筐投资浏览 346 09-29

被采取刑事强制措施后，善水科技董事长宣布“婚变”、辞职，前妻成实控人

红星资本局浏览 294 11-09

夸梅：哈登夏天只会抽烟喝酒在海外进监狱和脱衣舞娘开派对

直播吧浏览 459 08-26

著名粤剧演员李奇峰离世享年90岁，TVB台柱发长文悼念感激当年提携

TVB剧评社浏览 451 09-20

32岁叶柯产后瘦成少女，穿紧身裙惊艳全场

橙星文娱浏览 8970 08-07

baby独自带娃返港！一人拖俩行李箱，明星光环背后也是普通妈妈

电影侦探社浏览 3391 08-07

捧红王菲、那英的袁惟仁走了曾被陶晶莹公开调侃

中国新闻周刊浏览 277 02-03

缅甸飞昆明航班起落架受损昆明机场通报

界面新闻浏览 4584 07-16

为什么“多巴胺女孩”，更受直男欢迎？

Yuki女人故事浏览 7730 06-14

登味管理，正在杀死中国企业

商业评论零售现场浏览 283 01-27

记者：马竞与博塔弗戈直接接触，阿尔马达本人已经同意转会

直播吧浏览 3126 07-15

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11