关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01354人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

14岁男孩离家128天疑被骗出境从事电诈 本应升初三了

红星新闻 浏览 567 08-27

裁判评议:海牛vs海港,裁判回看后取消海牛点球的决定正确

懂球帝 浏览 375 10-23

戳破马拉松泡沫经济

诗与星空 浏览 329 10-19

宝宝黄疸,必须停母乳?错!

网易健康 浏览 9899 06-12

济南时报:中国男篮赢沙特为何如此艰难?明日对阵印度队不可大意

直播吧 浏览 4331 08-06

阿卡美网夺冠后回击爱参加派对流言,下一个新发型会更“惊喜”!

网球之家 浏览 421 09-10

赖清德只字不提台湾光复 还在公然纪念"古宁头战役"

海峡导报社 浏览 342 10-27

50岁龚琳娜自曝曾“几乎瘫痪”,演出前需拄拐杖

小张帅 浏览 503 08-16

央广时评丨汇聚中外好物 “丝路电商”创享消费新体验

海外网 浏览 6747 07-26

“容嬷嬷”年轻时竟是校花?看到照片后被惊艳

富书 浏览 5899 07-27

民生银行最年轻副行长获任,一年两度履新

财经众议院 浏览 9712 07-24

没能收回被俄罗斯扣留的3架飞机,山河智能收到1.6亿保险赔款

正经社 浏览 2116 08-13

苹果天气App昨晚出现宕机,目前异常已修复

三言科技 浏览 127 04-29

标配华为全家桶 尚界H5上市售15.98万元起

网易汽车 浏览 432 09-25

名嘴:快船将酝酿大动作 两年后薪资空间巨大 或追逐字母哥

Emily说个球 浏览 9775 07-28

外媒:俄坠毁客机运营商曾被查出多项严重违规行为

参考消息 浏览 6259 07-29

布朗:曼联能签多纳鲁马就太棒了,他比大马丁年轻&门线技术很强

直播吧 浏览 570 08-12

棉密码卫生巾检出致癌物,辛选回应“合规合格”,有消费者称长期使用患结节

红星资本局 浏览 1679 07-25

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻 浏览 246 02-02

AI抢产能、车厂抢内存,这场博弈中国车企如何破局?

百姓评车 浏览 277 02-04

塔利亚菲科谈点球判罚:那是一次正常的身体接触

懂球帝 浏览 423 09-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11