关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02354人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上映15天,《南京照相馆》丢了冠军,朱一龙新片9小时票房2775万

靠谱电影君 浏览 6650 08-08

美团国际化业务Keeta正式上线卡塔尔 7月底已拓展至沙特20城市

北京商报 浏览 496 08-20

怀念昔日时光?比尔在社交媒体晒出太阳生涯照片并配文:✌

直播吧 浏览 795 07-18

知名"富二代"所创明星机器人公司突解散 研发阵容豪华

每日经济新闻 浏览 339 10-19

手机店老板称线下不卖新机了,为啥手机店都不卖手机了?

江瀚视野 浏览 71 06-02

广厦GM:夺冠之后没有新的赞助商加入 可能和整个大环境有关系

直播吧 浏览 475 09-01

“以旧换新”撬动消费动能 如何借助ETF“聚焦”家电行业?

金证研 浏览 5526 08-13

上映27天被观众赶出院线!网播也救不了它,事实证明烂片已无市场

娱乐圈笔娱君 浏览 285 01-27

好家伙!《731》刚上映就口碑井喷,观众好评理由出奇的一致

娱乐圈笔娱君 浏览 302 09-19

胡塞武装称使用高超音速导弹袭击以色列

上观新闻 浏览 8652 07-03

伊藤美诚4-2战胜桥本帆乃香,晋级四强对阵朱雨玲

懂球帝 浏览 5507 07-12

三星时隔七年重启 Z-NAND 技术:目标是 NVMe SSD 约 15 倍性能

IT之家 浏览 5670 08-11

尹艳林:健全扩大内需有效机制,清理限购、限贷、限价等干预措施

中国商报 浏览 458 08-22

"大六座"深蓝S09预售火爆斩获2.1万订单

网易汽车 浏览 526 06-10

中国AI半导体加速“脱英伟达”,半导体国内自给率到2026年将提高至8成

财闻 浏览 271 02-02

长期的“台积电第一大客户”,苹果如今也不得不“抢产能”了

华尔街见闻官方 浏览 301 01-16

香港科学院新增五名院士

财闻 浏览 254 12-12

卡塔尔:加沙可能陷入“无战无和”局面

国际在线 浏览 319 11-01

马杜罗被指遭"发小"出卖 委"二号人物"疑与美接触数月

扬子晚报 浏览 285 01-19

美国制裁联合国巴勒斯坦问题人权专家 联合国:不可接受

上观新闻 浏览 3781 07-11

通宝光电产品单一,大客户依赖加深,毛利率趋势异于同行

权衡财经 浏览 3436 07-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11