关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01357人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大罢免完封绿营 朱立伦交棒:恳请卢秀燕接任党主席

看看新闻Knews 浏览 2391 08-24

廷贝尔:联赛杯决赛也许能成为争冠动力;哈弗茨不是安静的人

懂球帝 浏览 275 02-05

粿粿、王子同游被指没边界感:会偷吃就是会偷吃

一池春水l 浏览 278 11-09

Giorgio Armani先生的最后一场秀

时尚COSMO 浏览 382 09-30

AI让机器写代码变得更聪明:伊利诺伊大学团队破解训练瓶颈新方法

科技行者 浏览 313 11-04

于正怒了!状告百万网红大V索赔50万

裕丰娱间说 浏览 259 12-05

女子和老板在酒店开房发生关系 听到敲门"光着屁股"开

瓜田里有只大猹 浏览 5989 07-30

美官员:已收到伊朗通过巴基斯坦转交的谈判新方案

界面新闻 浏览 134 04-28

马斯克拿万亿美元薪酬,特斯拉核心高管为何集体离职?

功夫AUTO 浏览 303 11-15

宗庆后弟弟吐槽宗馥莉:要那么多钱干嘛 天堂又不能用

金融界 浏览 2151 07-18

赵丽颖被爆新恋情两个月,冯绍峰一记漂亮回击

负面黑洞 浏览 3417 08-06

中科大团队实现AI图表数学逻辑理解

科技行者 浏览 353 11-04

西媒:迈阿密国际有意洛塞尔索,已向其表达强烈兴趣

懂球帝 浏览 281 12-23

赞比亚中资企业遭抢劫致中国公民伤亡 8名歹徒被击毙

环球网资讯 浏览 6073 06-28

苹果折叠屏iPhone Fold细节曝光:钛合金机身,售价超2000美元

IT之家 浏览 383 09-22

WAIC前线|汉王科技推出首个“仿生嗅觉识别”方案

网易科技报道 浏览 8808 07-28

人均300的云贵川bistro,正在末位淘汰

餐饮老板内参 浏览 503 09-01

贵州2岁女童家门口失踪 父亲已去世母亲独自在外打工

红星新闻 浏览 378 10-20

破局出海难题 2025中国(合肥)跨境电商大会开幕

中安在线 浏览 4780 07-31

关于生成式AI,这三个问题很关键

经济观察网 浏览 327 10-28

中美就TikTok达成基本框架共识,美联储终于降息丨一周热点回顾

第一财经资讯 浏览 409 09-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11