关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025174人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

春天第一条裙子,这么穿!

黎贝卡的异想世界 浏览 131 03-08

AMD R5 5500X3D首个Geekbench跑分:单核与5500相似、多核提升13%

IT之家 浏览 441 08-25

“调改”难挽颓势,永辉超市减持红旗连锁套现8100万,去年已清仓式减持中百集团

红星资本局 浏览 253 10-21

雄鹿总裁:我们跟字母哥关系很好,关于他的交易流言非常搞笑

懂球帝 浏览 4742 07-14

网红“健康”食品,把中产绕晕了

虎嗅APP 浏览 1150 07-17

东体:泰山禁赛波及技术分和亚冠席位,全中超一起“受伤”

直播吧 浏览 5606 08-06

记者:曼联并非真想要沃特金斯,塞斯科才是他们真正的目标

直播吧 浏览 7662 07-31

"坠楼医生"网暴者院门紧闭挂监控 疑家属大骂"给我滚"

大风新闻 浏览 6658 08-10

55岁窦唯已迁居阿那亚,骑电动车,背帆布包

陈意小可爱 浏览 366 09-06

比亚迪 9 月新能源汽车总销量 396270 辆,同比下滑 5.5%

IT之家 浏览 319 10-02

62岁女富豪曹佩凤投案自首 与丈夫曾经三登胡润百富榜

华夏时报 浏览 8860 07-10

爽赚1个亿!切尔西官推回忆世俱杯夺冠:一周前的此刻

直播吧 浏览 3705 07-21

国产光刻胶攻坚提速,2026年有望爆发!扬帆新材等企业领跑突围

览富财经网 浏览 185 01-21

信捷电气亮相华为云城市峰会,联手打造具身智能应用新标杆

证券时报 浏览 4832 07-14

两次延期后回复上交所问询!综艺股份拟2.2亿入局功率芯片公司,转型还是保壳?

时代周报 浏览 4356 07-26

唐国强因九三阅兵后的动态口碑逆袭?

喜欢历史的阿繁 浏览 330 09-08

智元、宇树中标1.2亿元人形机器人采购订单

第一财经资讯 浏览 1885 07-12

新一任美联储主席被任命 华尔街无法确定其"是敌是友"

环球网资讯 浏览 168 02-02

加加食品预喜,扭亏为盈

斑马消费 浏览 3050 07-15

陆毅自曝恋爱细节,贝儿吃惊地张大下巴

疯说时尚 浏览 8542 08-10

经常头痛、持续呕吐,要留心这类儿童肿瘤

网易健康 浏览 7541 06-03
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11