关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02282人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

标配乾崑智驾ADS 4+鸿蒙座舱 岚图FREE+7月12日上市

网易汽车 浏览 9034 07-04

造乘龙卡车的,是群狠人

华商韬略 浏览 4035 08-12

安理会通过组建镇压海地黑帮部队决议 中俄投弃权票

每日经济新闻 浏览 415 10-02

业主订购样板间要求换材料 全友家居同意后称"做不了"

潇湘晨报 浏览 10061 08-09

女子机场托运行李后万元金链不翼而飞 嫌疑人被抓获

潇湘晨报 浏览 8420 06-01

吕海涛回归神龙出任总经理 合资老将掌舵转型深水区

网易汽车 浏览 247 10-29

恒大地产广东公司进入破产清算 中国恒大下周一退市

澎湃新闻 浏览 469 08-23

64岁男演员春节在景区打工暴瘦引担忧 曾自称不再拍戏

扬子晚报 浏览 148 02-24

35岁的蓝盈莹,按“常规节奏”该做的事一样没沾

小光侃娱乐 浏览 356 09-05

净赚超1.2亿,“奶酪一哥”妙可蓝多,业绩复苏

侃见财经 浏览 3243 07-17

改善眼部不适:谷歌 Pixel 10 Pro 系列手机支持 480Hz 高频调光

IT之家 浏览 418 08-22

全新一代小鹏P7要来了,全新风格,车长超5米,8月7日亮相

汽车公告板 浏览 2934 08-01

中乙保级组综述:广西蓝航1-1泰安天贶难求一胜 海港B队收获平局

直播吧 浏览 399 09-01

上半年营收18亿元同比增长12.3% 美图公司透露与阿里巴巴合作进展

经济观察报 浏览 463 08-20

台当局阻挠台胞参加阅兵 国台办:行径卑劣

界面新闻 浏览 275 08-28

对标丰田4Runner 本田新款Passport最新消息曝光

乐选爱车 浏览 302 10-09

洪森晒图驳斥"已飞往中国"传言:没有逃往任何地方

环球网资讯 浏览 3031 07-25

网易严选宠物全球创新研发中心启用,与SGS战略合作升级

观察者网 浏览 26 04-22

姆巴佩2秒大师演出:丝滑360度转身+1个动作3个效果 1战独造3进球

风过乡 浏览 4954 08-13

阿维塔战略 2.0 发布:2030 年进入 80+ 国家、布局 700+ 渠道

IT之家 浏览 297 09-21

美媒:无人机竞赛美不光落后中国 甚至还比不上乌克兰

澎湃新闻 浏览 371 09-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11