关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025270人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄8.7级地震引发海啸日本17地预警 首相呼吁迅速避难

每日经济新闻 浏览 1027 07-30

4500亿果链龙头狂赚115亿,潮汕富豪父女身家超800亿

21世纪经济报道 浏览 311 11-03

庆祝出线,U22国足教练组成员、前国脚黄博文社媒晒全家福:继续

直播吧 浏览 350 09-10

明星夫妻能消停点不?

衡南县融媒体中心 浏览 328 09-20

贾乃亮被骂表演型人格!李小璐被审判曾想过跳楼

萌神木木 浏览 1332 07-23

深圳"卷尺哥"找茬1000次被市长点名 拒绝去杭州当网红

新京报 浏览 98 06-02

凤凰组合2-0程星/张驰,晋级韩国羽毛球公开赛混双4强

直播吧 浏览 282 09-26

"天堂岛"总统来华寻根 在族谱里看到自己名字惊喜万分

上游新闻 浏览 10028 07-11

46岁的秦海璐,每月给婆婆钱 说是她的第三个孩子

科学发掘 浏览 453 08-26

澳国防部称监测到中国舰队活动 外交部回应

财联社 浏览 274 12-02

2026首个巡回赛惨案诞生,萨巴伦卡化身早餐外卖员用时47分钟下班

网球之家 浏览 293 01-07

黄仁勋继续减持英伟达:今年已套现2亿美元 公司市值4.2万亿美元

雷递 浏览 4889 07-21

中国观众认定的烂片,北美观众当成宝,全球破6.9亿夺票房冠军

靠谱电影君 浏览 511 08-17

71岁成龙与67岁梁家辉罕见同框!一个伤病缠身,一个大哥风范

温柔娱公子 浏览 5972 07-27

不分红了!格力电器中报失速,二季度业绩下滑明显!空调为何卖不动了?

中国基金报 浏览 500 08-29

美国即将对印度征收50%关税 莫迪硬刚特朗普表态

红星新闻 浏览 591 08-27

19岁小伙“手搓”第五代飞行器

极目新闻 浏览 395 09-15

凯莱英之变

看财经show 浏览 456 09-11

贝壳2025:成交3万亿,赚了30亿

定焦One 浏览 230 03-17

换装丰田混动系统!马力提升至219匹!美版2026款CX-50售21万

念寒车评 浏览 403 09-20

理想汽车“再战”纯电,32万元起的i8能否扛起销量大旗?

澎湃新闻 浏览 9015 07-30
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11