参考指南

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

跟队记者：拉...

目标直指绝对...

韦尔谈被斯波...

人工智能时代...

加沙＂狗线＂...

女人年纪大了...

五到十二：财务管理不善如何将狼队置于危险境地

成都百亿低空独角兽，要去IPO了

腾讯首次系统披露研发进展：AI生成50%新增代码，研发自动化水平同比提升67%

姜文现身法国送女儿出嫁

79岁一代文艺女神走了：终生未婚，一辈子穿西装

特朗普称伊朗福尔多核设施不再存在

男子打车多付9843元的哥：支付平台留言联系乘客退还

当你沉睡时，TA还在工作

民警拦截冲卡轿车被顶行600余米摔至路面仍昏迷不醒

长宁新设人工智能合资企业，上海国企与香港老牌制造商纷纷寻找“第二曲线”

任正非：中国在技术研究领域的发展步伐不可阻挡

国足首发出炉！已27年不胜日本，久帅变阵5后卫，韦世豪先发

格拉斯纳：看起来伊斯梅拉-萨尔喜欢踢利物浦，他总是能进球

三种版本可选吉利银河星耀7续航信息曝光

申花1-1蔚山，阿苏埃建功+屡失良机，路德维格松扳平

世体：梅西在进入诺坎普前没联系巴萨的任何人请求许可

德云社岳云鹏五姐包大巴车，带亲友们看演唱会

夸克上线千问助手，使用阿里Qwen最强大模型

韩磊再被捶，女子为其打胎小四也来了

拒绝悬浮！6部扎心又治愈的“都市家庭剧”

女人过了40岁穿衣别老气横秋，看看这些日系穿搭，得体又显瘦

算法工程师想在女友面前秀技术“养龙虾”，结果文件夹被全删周鸿祎称“龙虾”更像个实习生

印尼国家队经理：克鲁伊维特教练团队必须重新接受评估

今日热点：《不眠日》定档；网飞再减少韩国演员片酬……