关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025272人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

直瀑式格栅/3种座椅布局 第三代豪越L正式亮相

网易汽车 浏览 331 11-11

丹麦最性感的世纪巨星,名作今日四连发!

幕味儿 浏览 8964 08-10

落马女官员被传挖327枚比特币价值1.5亿元 纪委:谣言

潇湘晨报 浏览 485 08-15

萝卜快跑计划将业务扩展至澳洲和东南亚

盖世汽车 浏览 433 09-29

普京:若乌方不愿和平解决 俄方就打到问题解决

国际在线 浏览 221 12-29

克罗宁没有明确表示利拉德会缺席整个下赛季 球员本人也没说

直播吧 浏览 7619 07-22

Here we go!罗马诺:贝蒂斯将签色格拉布鲁日左后卫纳齐尼奥

懂球帝 浏览 516 08-23

雷军亲述玄戒芯片及造车幕后故事:压上10年家底、5年完成蜕变

尺度商业 浏览 421 09-26

埃安 UT super 国民好车下线,广汽、京东、宁德时代联合打造

IT之家 浏览 284 11-05

Vogue这一夜太抓马了

细语 浏览 336 10-24

网友日本偶遇郑伊健夫妇,两人举动好默契

笑猫说说 浏览 480 09-07

双子座流星雨即将引爆冬日夜空,成都“观星+”消费持续升温

红星新闻 浏览 290 12-12

男子称在理发店充值430万元灌肠针刺遭欺诈 门店回应

潇湘晨报 浏览 8484 07-11

男子家中冰箱门关不上灵机一动求助AI 差点花了冤枉钱

潇湘晨报 浏览 358 01-02

医疗器械出海进入爆发前夜 国产脑血管支架获FDA突破性认定 这些赛道望迎估值重塑

财联社 浏览 9903 08-09

町田外援埃里克:期待2026年世界杯能成为属于内马尔的舞台

懂球帝 浏览 74 05-28

穷门何广智到炸场王嘻哈:脱口秀六大门派图鉴

仙女事件簿 浏览 490 08-17

辛纳被选为巡回赛最聪明球员,克耶高斯再毒舌:真的是离谱

网球之家 浏览 10244 07-28

3名成人带4个小孩多次免费续面遭拒绝 警方回应

极目新闻 浏览 516 08-15

德云社张鹤伦凌雾天唱歌,好惬意

细语 浏览 368 10-16

U23亚预赛印尼0-1不敌韩国,无缘正赛阶段

懂球帝 浏览 401 09-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11