关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025271人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

摩根大通一线调研:微软领先所有人至少10光年,生态整合能力非常强大!

华尔街见闻官方 浏览 294 01-16

特斯拉官宣新车Model Y L 预计售价约40万

极目新闻 浏览 3628 07-17

中年女人,冬天这么穿羽绒服、大衣,优雅都藏在这3个细节里

静儿时尚达人 浏览 299 12-20

很久没这么心动了,是今年夏天最想尝试的风格!

黎贝卡的异想世界 浏览 4475 07-02

乌方此时透露俄集结11万士兵欲强攻乌东重镇 有何用意

国际在线 浏览 7332 07-01

雷军:小米不做6座SUV 李想:家庭用户更爱6座

车市红点 浏览 2330 06-24

东航"宠物进客舱"服务新增93条航线 覆盖31个机场

北京商报 浏览 452 08-29

李佳航、印小天拍短剧?还是穿越题材

最爱酷影视 浏览 362 10-12

建设周期长且成本高昂,欧盟多国重拾核能挑战巨大

环球网资讯 浏览 248 03-17

中国人寿清仓这家银行,银行股短期见顶?

网易财经 浏览 1756 07-17

停火协议第一阶段生效后 加沙小男孩光脚踏上回家路

国际在线 浏览 373 10-14

三种动力版本 全新奔驰GLA将于2026年上市

车质网 浏览 397 10-16

2026款奥德赛杀疯了!IQS夺冠 + 配置换血,18万落地稳赚不赔

吴佩频道 浏览 406 09-12

战斗感十足 雷克萨斯LFR内饰谍照曝光

车质网 浏览 342 09-29

上赛季球鞋上脚人数TOP15:科比球鞋断档领先 共136人穿过

直播吧 浏览 456 09-09

何超莲晒全家福,三太瘦了很多,窦骁仍缺席

素素娱乐 浏览 58 06-02

GPT-5第一波用户反馈:笨拙,还我4o

华尔街见闻官方 浏览 4729 08-09

权志龙风波升级!装不懂中文还无视中粉遭暴力对待,挚友被扒辱华

萌神木木 浏览 295 12-16

阿里,开大了

华商韬略 浏览 478 08-22

六人登记参选国民党主席 均已针对两岸关系表态

环球网资讯 浏览 455 09-20

上市24小时订单破21856台!50万的档次仅售15万多

隔壁说车老王 浏览 20760 08-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11