关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02230人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"普特会"结束后泽连斯基收坏消息 特朗普:你必须同意

梁讯 浏览 566 08-17

卡斯特罗普入籍韩国,韩媒:目前尚不清楚他如何解决兵役问题

懂球帝 浏览 5212 08-12

受贿3.43亿 吴英杰系二十大来第二个获死缓原省委书记

南方都市报 浏览 2975 07-17

创纪录的速度积累 美债总额首超37万亿美元

每日经济新闻 浏览 7434 08-13

美军突袭马杜罗的秘密武器 遭特朗普披露

环球时报国际 浏览 171 01-27

夏天总穿裤子太单一,试试这些显气质的裙装穿搭,优雅又显瘦

静儿时尚达人 浏览 4214 06-11

整车34.98万元/租电24.18万元,蔚来新ES6 30万台纪念版上市

IT之家 浏览 211 11-17

生若夏花去如秋叶,感人至深的人生最后告白

幕味儿 浏览 2462 07-24

懂穿搭的女人,把“卫衣”收进衣柜,这3件单品才是时髦密码

静儿时尚达人 浏览 277 10-05

迎来新行长,挥别董事长,浙商银行风雨交接班?

节点财经 浏览 2319 07-15

澳波:我完全不知道为何大家总以负面眼光看我,我挺招人喜欢

懂球帝 浏览 342 09-20

这个赛季,NBA的玄学将被终结

虎嗅APP 浏览 277 10-23

库迪被瑞幸逼急了?

派财经 浏览 4549 07-17

空军航空兵某旅组织飞行训练

人民网 浏览 3108 07-07

跟队:考虑到门迪的伤病,皇马很可能会拒绝放走弗兰-加西亚

懂球帝 浏览 3063 07-16

男子称胃癌晚期发现女儿非亲生 前岳母:他之前就知道

观威海 浏览 380 09-09

曝娜扎被抢休息室,刘亦菲聊天监听,后台大瓜!

萌神木木 浏览 212 10-13

微博、快手表态

澎湃新闻 浏览 319 09-21

斯基拉:吉达联合正尝试续约38岁的本泽马,已开出两年新合同

懂球帝 浏览 195 01-12

收藏!2026乒乓赛历出炉:全年63站以上,运动员体能迎来严峻考验

乒谈 浏览 200 01-02

上海确认:浦东全域开放自动驾驶!8家公司最新获批,真无人网约车来了

用车指南 浏览 1090 07-30
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11