关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01534人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

姜文现身法国送女儿出嫁

喜欢历史的阿繁 浏览 7460 08-11

79岁一代文艺女神走了:终生未婚,一辈子穿西装

世界音乐公号 浏览 367 10-13

特朗普称伊朗福尔多核设施不再存在

CCTV国际时讯 浏览 4319 06-22

男子打车多付9843元 的哥:支付平台留言联系乘客退还

红星新闻 浏览 10589 06-25

当你沉睡时,TA还在工作

学申论的谈妹 浏览 352 10-18

民警拦截冲卡轿车被顶行600余米摔至路面 仍昏迷不醒

潇湘晨报 浏览 1943 06-13

长宁新设人工智能合资企业,上海国企与香港老牌制造商纷纷寻找“第二曲线”

上观新闻 浏览 9058 07-27

任正非:中国在技术研究领域的发展步伐不可阻挡

观察者网 浏览 520 08-25

国足首发出炉!已27年不胜日本,久帅变阵5后卫,韦世豪先发

奥拜尔 浏览 6505 07-13

格拉斯纳:看起来伊斯梅拉-萨尔喜欢踢利物浦,他总是能进球

懂球帝 浏览 320 10-31

三种版本可选 吉利银河星耀7续航信息曝光

车质网 浏览 309 11-10

申花1-1蔚山,阿苏埃建功+屡失良机,路德维格松扳平

懂球帝 浏览 393 10-02

世体:梅西在进入诺坎普前没联系巴萨的任何人请求许可

懂球帝 浏览 288 11-11

德云社岳云鹏五姐包大巴车,带亲友们看演唱会

情感大头说说 浏览 355 10-13

夸克上线千问助手,使用阿里Qwen最强大模型

IT之家 浏览 307 11-17

韩磊再被捶,女子为其打胎 小四也来了

探源历史 浏览 509 08-28

拒绝悬浮!6部扎心又治愈的“都市家庭剧”

木木汐影视剪辑 浏览 271 01-12

女人过了40岁穿衣别老气横秋,看看这些日系穿搭,得体又显瘦

静儿时尚达人 浏览 282 11-10

算法工程师想在女友面前秀技术“养龙虾”,结果文件夹被全删 周鸿祎称“龙虾”更像个实习生

红星新闻 浏览 209 03-11

印尼国家队经理:克鲁伊维特教练团队必须重新接受评估

懂球帝 浏览 337 10-13

今日热点:《不眠日》定档;网飞再减少韩国演员片酬……

伊周潮流 浏览 339 09-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11