参考指南

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

上了年纪的女...

今日热点：电...

投资人的三个...

太阳&水星和...

殷剑峰：在低...

高考前2个月...

特朗普在专机上提到与高市早苗通话:她是安倍的好朋友

中报喜增杭州银行赢在战略蓄力还有啥短板？

博士，突然过剩了

苹果型显瘦的夏季穿搭，挺好看！

于根伟：我们上半场进入状态慢了些，很遗憾输掉了比赛

中国女足在进攻三区传球成功率仅为64%，为四强球队中最低

这是陈妍希？新剧开播后居然长这样

＂75后＂冯长军升任东风汽车集团董事、总经理

都体：罗马有意签下麦肯尼，尤文标价不低于2500万欧元现金

拥抱大牛市，建议大家先上车后补票！

荣耀“既Pro又Air”新机设计线稿首曝

姜文现身法国送女儿出嫁

内部代号泰山岚图大型SUV路试谍照曝光

飞天茅台批价首次跌破1700元，机构称“白酒需求仍在磨底阶段”

泰国柬埔寨冲突升级之际佩通坦表示相信自己＂会回来＂

阿莱格里：有的球员值1亿有的值100万，让1亿的上就是容易赢

夏季穿搭不用发愁，这27套造型值得照搬，优雅清爽又有回头率

靠脱口秀昙花一现的李诞，如今越混越落魄了

韩媒：美国提要求施压韩国应对＂台湾有事＂

梅筝撒谎成性，李沐风为爱犯罪，《正当防卫》反转成瘾！

市值26亿豪掷32亿跨界“钠电”，环保企业“同兴科技”胜算几何？

芯片巨头CEO又套现！黄仁勋拟减持英伟达7.5万股

“韩版英伟达”融资数亿美元，Cerebras获巨资冲刺IPO

中国管制稀土出口全球车企急了