关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01465人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中孚信息再现高管被留置 公司治理隐忧加剧引市场震荡

经理人杂志 浏览 4862 07-25

马斯克xAI官宣:Grok 4向全球所有用户免费开放!

智东西 浏览 544 08-11

10倍股的崩塌

诗与星空 浏览 473 08-11

从夸克眼镜,到豆包手机,为什么巨头扎堆端侧AI?

华尔街见闻官方 浏览 261 12-02

1欧元买18架战机 罗马尼亚与荷兰以"象征性价格"签署购机合同

环球网资讯 浏览 299 11-05

夫妇盯上2‰自然损耗规则 上千吨粮食遭盗卖价值500万

CCTV今日说法 浏览 364 10-21

科学运动健身享健康 请避开这6个误区

人民网 浏览 5174 08-09

英媒:美在芯片货物中安追踪器 以发现是否转运至中国

环球时报 浏览 9547 08-14

S妈现身大S雕像揭幕仪式,S家人穿黑衣现身,纪念碑刻着“S”字样

素素娱乐 浏览 267 02-03

千亿巨头奖励员工21枚黄金键帽 空格键重35克价值近4万

每日经济新闻 浏览 357 10-26

国家,给人工智能定了新调子

米筐投资 浏览 346 09-29

被采取刑事强制措施后,善水科技董事长宣布“婚变”、辞职,前妻成实控人

红星资本局 浏览 294 11-09

夸梅:哈登夏天只会抽烟喝酒 在海外进监狱 和脱衣舞娘开派对

直播吧 浏览 459 08-26

著名粤剧演员李奇峰离世享年90岁,TVB台柱发长文悼念感激当年提携

TVB剧评社 浏览 451 09-20

32岁叶柯产后瘦成少女,穿紧身裙惊艳全场

橙星文娱 浏览 8970 08-07

baby独自带娃返港!一人拖俩行李箱,明星光环背后也是普通妈妈

电影侦探社 浏览 3391 08-07

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

中国新闻周刊 浏览 277 02-03

缅甸飞昆明航班起落架受损 昆明机场通报

界面新闻 浏览 4584 07-16

为什么“多巴胺女孩”,更受直男欢迎?

Yuki女人故事 浏览 7730 06-14

登味管理,正在杀死中国企业

商业评论零售现场 浏览 283 01-27

记者:马竞与博塔弗戈直接接触,阿尔马达本人已经同意转会

直播吧 浏览 3126 07-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11