关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02316人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

落地的凤凰不如鸡?3年未登春晚 贾玲现状令人唏嘘

界史 浏览 4400 08-09

美国中产正在变得危险吗?

虎嗅APP 浏览 360 10-02

李施嬅困局:被有毒关系猎杀的富家女

仙女事件簿 浏览 250 11-01

美国出乎意料对哈萨克斯坦下手 被指"与中国有关"

澎湃新闻 浏览 3108 07-12

国家烟草专卖局原副局长张天峰被开除党籍

新京报 浏览 10006 07-14

李国庆婚礼收到111笔善款 受助学生手工制作礼物感谢

扬子晚报 浏览 540 08-23

国亮新材IPO:行业产能过剩、竞争对手强大,未来发展出路在哪里

览富财经网 浏览 346 11-06

东风日产成立 22 年来史无前例的一次大改造

晚点LatePost 浏览 5259 07-28

保定多地遭遇强降雨 有居民称养500万只蝎子都被冲走

红星新闻 浏览 10690 07-26

4岁女童车内睡觉失踪超24小时 镇长:确实太蹊跷了

上游新闻 浏览 368 10-17

GPT-5发布前夜,Anthropic抢先出牌,发布新模型Claude 4.1

网易科技报道 浏览 9460 08-07

伊姐周六热推:电视剧《樊笼》;电视剧《翘楚》......

伊周潮流 浏览 60 05-31

股权传承落定 娃哈哈正式迈入“宗馥莉时代”

看看新闻Knews 浏览 559 08-28

历史再次选中了香港,这次关乎国运!

米筐投资 浏览 540 08-26

香港65公斤黄金劫案事发公司关大门 员工平时很"神秘"

每日经济新闻 浏览 504 09-20

谷歌与OpenAI携手:云合作背后的机遇与隐忧

环球网资讯 浏览 7973 07-24

穿冰淇淋色裙子,凉快!

Yuki女人故事 浏览 65 06-02

陈晓波“挂帅”,福特“打包”

青橙汽车 浏览 386 09-25

可磁吸绝配iPhone!长江存储致态灵潮流版移动SSD 2TB图赏

快科技 浏览 260 12-16

宗馥莉家庭被扒,父亲作风不正关系畸形

趣文说娱 浏览 12594 07-18

287万美元!美记:贾旺特-格林和活塞签下一份一年底薪合同

直播吧 浏览 507 08-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11