关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02319人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苹果型显瘦的夏季穿搭,挺好看!

Yuki女人故事 浏览 5194 06-28

于根伟:我们上半场进入状态慢了些,很遗憾输掉了比赛

懂球帝 浏览 10418 07-28

中国女足在进攻三区传球成功率仅为64%,为四强球队中最低

懂球帝 浏览 204 03-17

这是陈妍希?新剧开播后居然长这样

Yuki女人故事 浏览 199 12-21

"75后"冯长军 升任东风汽车集团董事、总经理

网易汽车 浏览 390 10-12

都体:罗马有意签下麦肯尼,尤文标价不低于2500万欧元现金

懂球帝 浏览 504 08-12

拥抱大牛市,建议大家先上车后补票!

星图金融研究院 浏览 9835 07-24

荣耀“既Pro又Air”新机设计线稿首曝

IT之家 浏览 303 01-07

姜文现身法国送女儿出嫁

喜欢历史的阿繁 浏览 7462 08-11

内部代号泰山 岚图大型SUV路试谍照曝光

车质网 浏览 7820 07-24

飞天茅台批价首次跌破1700元,机构称“白酒需求仍在磨底阶段”

YOUNG财经 浏览 340 10-29

泰国柬埔寨冲突升级之际 佩通坦表示相信自己"会回来"

新民周刊 浏览 8370 07-26

阿莱格里:有的球员值1亿有的值100万,让1亿的上就是容易赢

懂球帝 浏览 277 01-16

夏季穿搭不用发愁,这27套造型值得照搬,优雅清爽又有回头率

静儿时尚达人 浏览 437 09-07

靠脱口秀昙花一现的李诞,如今越混越落魄了

沧海一书客 浏览 280 12-16

韩媒:美国提要求 施压韩国应对"台湾有事"

环球时报国际 浏览 5819 07-26

梅筝撒谎成性,李沐风为爱犯罪,《正当防卫》反转成瘾!

电和影 浏览 2870 07-15

市值26亿豪掷32亿跨界“钠电”,环保企业“同兴科技”胜算几何?

时代周报 浏览 295 12-12

芯片巨头CEO又套现!黄仁勋拟减持英伟达7.5万股

21世纪经济报道 浏览 1331 07-17

“韩版英伟达”融资数亿美元,Cerebras获巨资冲刺IPO

DeepTech深科技 浏览 366 10-02

中国管制稀土出口 全球车企急了

澎湃新闻 浏览 4815 06-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11