关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02355人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

西班牙女足主帅:球员们付出巨大努力走到这里,我们值得这个冠军

直播吧 浏览 5047 07-27

加沙卫生部门:过去24小时以军行动造成至少80人死亡

环球网资讯 浏览 2180 07-08

“苏超”“赣超”再破纪录!全国最大规模“社超”来了

国是直通车 浏览 383 09-22

江苏孕妇骑车遭3只宠物狗追咬 打疫苗后胎儿停止发育

极目新闻 浏览 553 09-22

记者:相较那不勒斯等队的报价,恩多耶更渴望加盟森林去英超踢球

直播吧 浏览 4470 07-29

夏天别总穿T恤,这些粉色裙子也不妨试一试,温柔高级又舒适

静儿时尚达人 浏览 69 05-26

江苏明确:新能源车可在谷价时充电,峰价时给电网放电赚差价

上观新闻 浏览 489 08-23

新年将至 普京问候前线俄军:感谢英勇的所有人

看看新闻Knews 浏览 264 12-31

特朗普向印"开火" 莫迪"硬碰硬"不愿让步让特朗普恼火

第一财经资讯 浏览 3137 08-07

邓心怡高频“救火”背后 诺安基金人才流失困境待解

网易财经 浏览 1643 07-26

洪森晒图驳斥"已飞往中国"传言:没有逃往任何地方

环球网资讯 浏览 3101 07-25

官方:尤文前锋冈萨雷斯先租后买加盟马竞,总价3300万欧

直播吧 浏览 361 09-02

工行市值逼近3万亿,五年内A股会诞生万亿美元市值的公司吗?

郭施亮 浏览 1304 07-14

百度再战高德,还拉来了两大“帮手”

螺旋实验室 浏览 361 10-11

全车三排Nappa真皮包覆 全新别克GL8陆尊座舱信息

网易汽车 浏览 10265 08-02

董宇辉出走1年东方甄选股价暴涨超200% 俞敏洪做对了

每日经济新闻 浏览 635 08-12

李梓萌骗人真相大白,幕后黑手被揪

近史博览 浏览 353 10-20

特朗普政府再借美联储总部翻修“攻击”:白宫指鲍威尔“严重管理不善”

华尔街见闻官方 浏览 2665 07-11

科技援外 复旦上医迎接“一带一路”学员

上观新闻 浏览 10536 07-14

买10件退9件?到底怎么买红衣服才能不踩雷

黎贝卡的异想世界 浏览 266 01-30

央视披露:"哪吒"造车3年亏183亿 多地国资投资难追回

新京报政事儿 浏览 164 04-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11