关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:0131人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

王鸥女儿疑曝光!扎着小辫胖嘟嘟,知情人曝王鸥和何九华已结婚

探源历史 浏览 1374 07-15

官方:田玉达加盟辽宁铁人

懂球帝 浏览 162 01-29

“痛金”走红,二次元能拯救金饰消费吗?

国是直通车 浏览 3703 07-28

美推进“金穹”系统的天基拦截器研制 但钱和技术都存在问题

澎湃新闻 浏览 256 10-12

雷军向海外转50亿美金?小米回应

第一财经资讯 浏览 5241 08-09

搭载增程动力 大众ID.ERA量产版2026年上市

车质网 浏览 131 11-27

来搞笑的?超级杯花名册漏洞百出:照片古早且粗糙,译名叠词

懂球帝 浏览 122 03-03

伟大的换帅!巴拉圭主帅12场拿23分,同期平阿根廷并列南美第一

直播吧 浏览 306 09-10

万科密集自救:深铁百亿输血 三天火线售股

界面新闻 浏览 8575 06-16

一周AI大事:Grok 4硬刚GPT-5,英伟达破纪录

网易科技报道 浏览 7019 07-14

百度19亿美元收购将成历史:91助手全面停服

第一财经资讯 浏览 399 09-01

淘宝闪购日订单连续两个周末超9000万,超30万非餐门店生意突破峰值

北青网-北京青年报 浏览 5360 07-29

佛山3000+病例 基孔肯雅热来袭

网易健康 浏览 1686 07-25

防守真行!杨瀚森首节贡献3分2板1助2帽 对位的13号秀和米西9中1

直播吧 浏览 2848 07-16

小鹏汇天“陆地航母”于迪拜完成公开飞行演示

网易汽车 浏览 255 10-13

雷军大动作!小米新车,增加机械门把手

财通社 浏览 208 01-08

OpenAI更新ChatGPT使用政策,禁止提供专业医疗、法律和财务建议

IT之家 浏览 289 11-03

刘亦菲在北京吃烤肉,素颜戴墨镜气场强大

奥字侃娱 浏览 437 08-20

向太曝想“暴打”情敌:女星用手指扣向华强掌心,气到她当场发飙

温柔娱公子 浏览 354 09-01

岁月不败美人,50岁她们比20岁更好看

LinkFashion 浏览 186 01-17

苏州一餐馆3元糖水碗"内增高" 糖水覆盖碗底薄薄一层

扬子晚报 浏览 2523 07-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11