关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02356人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

保时捷4S店暴雷背后 两记“暴击”都是新势力给的

小李车评李建红 浏览 237 12-28

时尚圈拜高踩低又来了!VOGUE群封宋佳被换番,输给杨幂倪妮热巴

萌神木木 浏览 394 09-06

贵=好用?这个刚需我们试了一堆才选到合适的

黎贝卡的异想世界 浏览 383 10-16

狄龙爆料当年曾差点去勇士 在库里身边他能达成如今的成就吗?

仰卧撑FTUer 浏览 270 02-02

迪马:国米已与卢克曼达成协议,无论卖人与否都准备投4000万

懂球帝 浏览 3736 07-17

糊涂了?赫内斯称欧冠若进决赛最多踢13场,而新赛制需踢15或17场

直播吧 浏览 442 09-11

女子被传遭香港人包养很有钱 被多人绑走勒索还遭强奸

极目新闻 浏览 618 08-23

张朝阳:AI让人人成为“知道分子”,但我们仍需思考丨2025世界互联网大会

红星资本局 浏览 347 11-09

捷尼赛思败走中国?!

汽车公社 浏览 2895 07-16

赵露思:退圈72天,反转太快

Yuki女人故事 浏览 307 11-01

海南“半价豪车”真相:代购违规,15年强制报废还得补缴巨款

国际金融报 浏览 255 12-24

伊藤美诚4-2战胜桥本帆乃香,晋级四强对阵朱雨玲

懂球帝 浏览 5507 07-12

CBA常规赛第26轮最佳阵:周琦阿不都沙拉木领衔,姜伟泽在列

懂球帝 浏览 199 03-17

今年秋冬最美的搭配:毛衣+裙子,减龄又气质!

LinkFashion 浏览 358 10-18

宝马M3旅行版正式上市 售价94.39万元

车质网 浏览 267 11-03

记者:莱比锡尚未收到给西蒙斯的报价,切尔西与球员接近达成协议

直播吧 浏览 4613 07-24

突然加速!避险资金拥抱消费ETF,什么信号?

券商中国 浏览 335 10-22

原美团平台技术部负责人司天歌离职,大象已经显示为DX

大厂青年 浏览 510 08-22

深夜觉醒!资本大佬开始加速套现

米筐投资 浏览 1194 08-07

智元新增人形机器人生产订单超万台,具身本体路线还能卷多久? | 独家

钛媒体APP 浏览 134 04-29

全系搭载3颗图灵AI芯片,全新小鹏P7正式亮相

光子星球 浏览 9659 08-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11