关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01355人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大咖连线|专访拉斯・特维德:人工智能热潮下,为何看好大宗商品?

中新经纬 浏览 436 09-11

影石们找到了“活人感”

字母榜 浏览 285 12-23

高盛都要收购哈根达斯了?高盛大动作意欲何为?

江瀚视野 浏览 9640 08-12

分开十年,江疏影事业感情受挫 胡歌却走上坡路

小丸子的娱乐圈 浏览 5231 07-26

华为 800V 高压七合一电机官方解说发布

IT之家 浏览 7282 07-24

沈阳00后故意撞人猛踩油门下死手 身份被扒

鋭娱之乐 浏览 5691 08-14

用面包"雕刻"三星堆 00后女孩捧回国际烘焙大赛冠军

极目新闻 浏览 3201 08-05

28岁韩国女星改行开整容医院!亲吐真实心声

好贤观史记 浏览 13 06-17

文远知行被传已秘密提交香港上市申请

红星新闻 浏览 842 06-24

美团:绝不自营,绝不下场与商家竞争

第一财经资讯 浏览 10043 07-29

国家铁路局党组书记、局长费东斌被查

央视新闻客户端 浏览 10152 06-13

今年夏天最流行的5组搭配,谁穿谁好看!

LinkFashion 浏览 10420 06-18

字节跳动OmniHuman:静态照片秒变生动视频

科技行者 浏览 511 08-27

宽基ETF被抢筹,市场风格走向何方?

国际金融报 浏览 269 12-19

亏懵了!明星基金经理新基金成立仅两月亏去8%,和大盘反着走,基民:让人失望

红星资本局 浏览 586 08-12

黄仁勋:任何轻视华为、轻视中国制造能力的人,都极其天真!

深蓝财经 浏览 4961 07-17

阿里又开源了!电影级视频模型,业界首用MoE架构,通义App已上线

智东西 浏览 6728 07-29

重赛战胜肯尼亚队!美国男子4×400接力队,获世锦赛决赛资格

全景体育V 浏览 410 09-21

“卖身”悬念背后,“高端零食第一股”的内忧与遗憾

尺度商业 浏览 4211 07-16

特朗普:将对大部分国家征收15%至50%的简单关税

央视新闻客户端 浏览 1732 07-24

纯电续航可达700km AMG GLC 53 EQ谍照曝光

车质网 浏览 265 11-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11