关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025278人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

男子租车遇划痕被车主索赔900元 报警后赔偿立减400元

大风新闻 浏览 411 12-05

郭芙蓉自由了,我却还留在同福客栈

时尚COSMO 浏览 209 01-07

史上最长续航Model 3上线,特斯拉中国:能续航830公里

网易科技报道 浏览 8138 08-12

市场监管总局发文禁止亏本卖车!比亚迪北汽响应

明镜pro 浏览 248 12-14

“躺赚”的企查查,是个苦生意?

定焦One 浏览 378 10-13

今世缘“内涵”洋河营销翻车?董事长顾祥悦紧急表态:可以讲自己好话,不允许讲别人坏话!

时代周报 浏览 8007 07-28

3-0开启卫冕之旅!梅西戴帽加冕射手王,阿根廷完胜阿尔及利亚

全景体育V 浏览 15 06-17

“董璇二婚”被网友批:想不通

草莓解说体育 浏览 592 08-21

拓记感叹:现场中国球迷好多呀 在小型场地格外引人注目

直播吧 浏览 2991 07-16

曼联两太子拒沙特!拉什福德无视4000万年薪,加纳乔放弃搭档C罗

罗米的曼联博客 浏览 7875 07-14

夏日穿对才清爽!7件简约基础款单品,不踩雷还百搭,照着穿很美

Yuki女人故事 浏览 4155 08-03

组千人团队,赴德国建厂!追觅跨界造车靠谱吗?

澎湃新闻 浏览 438 09-20

广东省委决定:孟凡利任省政府党组书记

政知新媒体 浏览 386 09-30

五菱缤果S开启预售 预售价6.88万元起

车质网 浏览 481 08-25

娜扎《玉茗茶骨》解锁国风新体验

呱田里的猹 浏览 277 01-08

泰军方向26国发函:柬埔寨率先开火并袭击平民

央视新闻客户端 浏览 2989 07-27

难看就是难看!

严肃八卦 浏览 8523 07-21

拜仁官方:世界队中国之旅结束,期待更多中国青年才俊加入

懂球帝 浏览 1474 07-14

始祖鸟在喜马拉雅山放烟花 成功"劝退"了真正的户外人

每日经济新闻 浏览 426 09-21

理想i6不搞虚的,9月26日上市/第二天开始交付

星星car 浏览 411 09-20

迈阿密国际后卫法尔孔:若德保罗能加盟,会对我们有很大帮助

懂球帝 浏览 6166 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11