关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01356人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

点球门神接力!王国明一战封神,屡献神扑后扑点,当选MVP

奥拜尔 浏览 527 08-20

上半年营收利润双下滑,“苏酒老二”今世缘150亿目标悬了?

尺度商业 浏览 448 09-02

法拉利撞上护栏后迅速起火 知名游戏大佬被困车内身亡

每日经济新闻 浏览 246 12-24

改善眼部不适:谷歌 Pixel 10 Pro 系列手机支持 480Hz 高频调光

IT之家 浏览 510 08-22

一天卖了友商半年的量?大家为啥都在买小米YU7啊

差评XPIN 浏览 6143 06-30

“中国机构是迪拜金融中心发展的关键力量”

国际金融报 浏览 375 10-15

估值与流动性双轮驱动 高盛维持A股H股增持评级

环球网资讯 浏览 404 09-20

“医美茅”上半年净赚近8亿!爱美客抗周期能力凸显,双轮驱动支撑稳健增长

时代周报 浏览 543 08-20

曝黄晓明叶珂秘密同居!每月28万金屋藏娇,杨颖不让儿子过去住

萌神木木 浏览 9528 07-31

小区保安与居委会副主任及其妹妹冲突后 因脑出血住院

红星新闻 浏览 572 08-27

又一黑马大剧《表妹万福》来袭,宋祖儿撒娇追夫

动物奇奇怪怪 浏览 329 10-20

价格是入门级X7两倍 宝马Alpina XB7新版本最新消息曝光

乐选爱车 浏览 201 03-16

美股三大股指齐收跌 大型科技股多数下跌

中新经纬 浏览 5301 08-06

丹麦称美国将向其提供反无人机支持

国际在线 浏览 438 10-01

欧文:拜仁现在肯定懊悔不已,赫拉芬贝赫身价绝对超过1亿镑

直播吧 浏览 397 09-22

小饭店老板随手拍视频成"违法广告" 遭45万元天价处罚

大风新闻 浏览 2940 07-12

美非农“跌倒”,大A吃饱?

每日资本论 浏览 9187 08-07

特朗普语出惊人 称"要让药价降低1500%"

环球网资讯 浏览 3454 07-25

将放弃混动车型 雷克萨斯LC最新消息曝光

乐选爱车 浏览 4498 07-26

31岁男子乘摩托艇遇难 家属:两个孩子1个7岁1个3岁

极目新闻 浏览 3097 07-27

江苏孕妇骑车遭3只宠物狗追咬 打疫苗后胎儿停止发育

极目新闻 浏览 557 09-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11