关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01266人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

预计2026年正式发布 全新现代i20渲染图曝光

车质网 浏览 278 10-21

葡萄牙足协发文悼念若热·科斯塔:他将永远被铭记

体坛周报 浏览 4461 08-06

AI聊天机器人诱导线下约会,一位老人死在寻找爱情的路上

第一财经资讯 浏览 423 08-25

谷歌 Pixel 10 Pro Fold 折叠屏手机官方渲染图公布:告别黑白

IT之家 浏览 4079 07-24

津媒:阿代米大腿后侧肌群拉伤,将肯定无缘与大连英博的比赛

懂球帝 浏览 8129 08-13

蔚来ET9百万纪念限量版上市 售价81.8万元

车质网 浏览 154 01-08

天翎科旗舰飞行器L600真机下线,累计获得近千架意向订单|最前线

36氪 浏览 246 11-06

荣耀 MagicPad3 Pro 13.3 英寸平板上架官网

IT之家 浏览 310 09-29

威格曼率队完成女足欧洲杯三连冠,成历史首位达此成就的教练

懂球帝 浏览 9455 07-28

「“NESTA六维电安全”技术验证」小米YU7

海外网 浏览 9976 07-21

全市场:尤文与国米有意穆哈雷莫维奇,但萨索洛要留他到明夏

懂球帝 浏览 167 12-24

两名小伙被介绍到云南打工后失联 手机最后定位在缅甸

极目新闻 浏览 9016 07-21

零跑造豪车,“优衣库”依然是朱江明最坚硬的铠甲

雪豹财经社 浏览 265 10-20

武大事件升级 疑老师辟谣:女方保研合规 14人中排第9

火山诗话 浏览 6946 08-05

1-0击败阿根廷,力压巴西排名南美第二!这厄瓜多尔为何这么猛?

直播吧 浏览 354 09-11

双良节能:从“节能老将”到“液冷新势力”

英才商业 浏览 353 09-11

美2.4万吨军舰突发火灾烧了12小时 反复请求日方支援

每日经济新闻 浏览 531 08-22

见证历史 A股市值突破100万亿元大关

证券时报网 浏览 435 08-19

安卓版谷歌Gemini AI助手灰度测试“聊天历史记录搜索”功能

IT之家 浏览 8306 07-14

特斯拉申报Model Y长续航后驱版 又是一个走量款

网易汽车 浏览 261 10-12

程强:缩量反弹,关注宏观事件密集落地

首席经济学家论坛 浏览 201 10-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11