关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01448人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

凯塞多:巴黎是一支伟大的球队 希望厄瓜多尔夺世界杯冠军

直播吧 浏览 8790 07-14

马竞战博德闪耀大名单:格列兹曼缺阵,小蜘蛛、瑟洛特在列

懂球帝 浏览 169 01-29

【产业互联网周报】 WAIC开幕,中国大模型数量居全球首位;美国发布AI行动计划;阿里通义千问宣布更新旗舰版Qwen3模型;上海人工智能实验室发布超大规...

钛媒体APP 浏览 2248 07-28

离婚6年后,马伊琍谈婚姻观,让文章再次陷入尴尬

胖松松与瘦二毛 浏览 47494 08-27

关窗前的期待?李-夏普:曼联签门将是当务之急,其次是中场

懂球帝 浏览 402 09-01

阅文集团,重走LABUBU“老路”

新消费101 浏览 1061 07-17

从50天4场到21天0场!34岁张水华被处分后静悄悄 为工作牺牲爱好

风过乡 浏览 182 12-24

七匹狼一年靠投资赚超3亿,男装不行投资来救该咋看?

江瀚视野 浏览 30 04-22

世体:梅西在进入诺坎普前没联系巴萨的任何人请求许可

懂球帝 浏览 201 11-11

体检10年未提示癌症 女律师最新发声:身边多人被误诊

鲁中晨报 浏览 4410 07-18

前央视主持人水均益直播 额头顶"中国人"纸条否认移民

极目新闻 浏览 259 10-26

推广|| 新买的衣服人人夸!果然还得是他家

黎贝卡的异想世界 浏览 295 10-12

商用场景低耗优于竞品,AMD 锐龙 7 8700G 处理器评测

IT之家 浏览 8754 07-31

相声演员汪洋灵堂内涵杨少华儿子,杨议妻子发声:网友的眼睛雪亮

萌神木木 浏览 2143 07-11

俄海军副司令在库尔斯克州遇袭身亡

CCTV国际时讯 浏览 873 07-04

Manus最新爆料:公司收入运行率达9000万美元

网易科技报道 浏览 375 08-20

被指控“欺诈发债”?华熙生物回应

南方都市报 浏览 9590 07-27

2025最流行的摩卡慕斯色,配牛仔蓝太好看了!

LinkFashion 浏览 283 09-25

1.8亿存款消失,竟是行长疯了卷款跑路

大猫财经Pro 浏览 169 02-03

黄奕女儿还想出道?其父毒贩8月被抓

八卦王者 浏览 504 08-12

英超头号争议诞生!82分钟被判点球 球员看懵了 英媒:丑闻

叶青足球世界 浏览 439 08-19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11