关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:01154人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

注意!这次通胀真要起来了

米筐投资 浏览 5971 07-29

应采儿携子伦敦地铁,13岁Jasper摘牙套十分帅气

凉湫瑾言 浏览 246 03-02

国企6382.5万买沥青变"水和空气" 沥青是否存在过成谜

上游新闻 浏览 369 10-17

罗马仕及相关公司遭起诉追讨1.36亿元

红星新闻 浏览 442 09-04

小米穿越风暴这一年,给创新者以时间

中国企业家杂志 浏览 299 01-15

摄影比赛第一名被指是AI生成图片 被取消成绩

封面新闻 浏览 285 01-12

李超:山重水复,股债双牛

首席经济学家论坛 浏览 3011 08-06

男子"手搓"小船带着儿子游太湖被困:船刚开出一公里

上游新闻 浏览 310 01-29

吴奇隆真是捡到宝了啊,做梦都会笑醒吧

小椰的奶奶 浏览 402 08-22

6名大学生参观学习遇难事件被提级调查,中金黄金董事长是东北大学校友

第一财经资讯 浏览 4108 07-25

大厂边缘的中年人:融不进去,逃不出来

她刊 浏览 71 05-27

晋级欧锦赛16强!字母哥复出27+8 希腊男篮41分大胜格鲁吉亚

醉卧浮生 浏览 482 09-01

印度司机看不懂英文 在高速上非法调头害死3名美国人

极目新闻 浏览 500 08-23

双星鞋业84岁创始人宣布断绝父子关系:儿子抢公章夺权

红星新闻 浏览 289 01-05

景区直升机坠落致1死4伤 “黑飞”公司无资质

环球网资讯 浏览 1538 08-04

终于扔了10年前的眼影腮红,精简后依然爱用的是这几样

黎贝卡的异想世界 浏览 580 08-19

远藤航:以利物浦球员身份重返日本,是我梦想成真的时刻

懂球帝 浏览 5974 07-31

迪亚斯生涯前6场德甲直接参与9球,追平哈兰德&仅次于凯恩

懂球帝 浏览 316 10-17

违法违规收集个人信息!这两家券商APP在列

券商中国 浏览 1596 07-15

刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相

机器之心Pro 浏览 393 09-11

奇安信副总裁刘浩入选“2025年IDC中国网络安全十大人物”

雷峰网 浏览 474 09-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11