关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02374人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

台风致广西百色多家景区闭园 部分游客订民宿遇退费难

上游新闻 浏览 354 10-02

世体:皇马今天在雨中训练,阿拉巴、卡瓦哈尔和吕迪格依然缺席

懂球帝 浏览 223 10-31

达利欧:AI热潮处于泡沫初期,美联储或进一步吹大泡沫

华尔街见闻官方 浏览 198 01-06

抢先华为!荣耀亲选耳夹式耳机2代上市:399元

快科技 浏览 493 08-11

媒体:巴正式启动军事行动 标志着印巴冲突的重大升级

新京报 浏览 6991 05-11

香港五级大火令人揪心 一众明星发声

天启大世界 浏览 145 11-27

小吧译言家 双10号驾到!库尼亚与姆贝莫将如何重塑曼联战术体系

直播吧 浏览 5546 07-29

杨振宁获诺奖速度纪录至今未破 提出理论到获奖仅1年

澎湃新闻 浏览 271 10-19

记者:罗马要求弗拉门戈在周一晚7点前回应针对韦斯利的报价

懂球帝 浏览 5386 07-21

Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

机器之心Pro 浏览 2341 08-07

特朗普大规模换大使:涉及30多国 均在拜登时期上任

齐鲁壹点 浏览 213 12-23

谷歌 Pixel 10 Pro Fold 折叠手机首度动态亮相:开合流畅

IT之家 浏览 8497 08-09

林平发展发IPO中签率0.01888800%,绿色循环造纸企业价值获市场关注

时代周报 浏览 161 02-03

敢挑战八村身边的相扑选手吗?帕金斯:给我一个月时间准备一下

直播吧 浏览 9817 08-13

礼来下调Zepbound减肥药现金价格,最低至每月299美元,股价下挫1%

华尔街见闻官方 浏览 204 12-02

两连败!曼城遭绝杀1-2布莱顿 哈兰德破门努内斯送点米尔纳破门

直播吧 浏览 403 09-01

张升民任国家中央军事委员会副主席

新华社客户端 浏览 246 10-29

U21联赛综述:国安6-1大胜红狮,昆明4-2战胜梅州

懂球帝 浏览 476 08-12

马特乌斯:拜仁有责任签下沃尔特马德,报价应该和签约迪亚斯类似

直播吧 浏览 6279 08-12

乐高新品二手价跌近200元,乐高不再被欢迎了?

江瀚视野 浏览 9527 07-12

50岁龚琳娜自曝曾“几乎瘫痪”,演出前需拄拐杖

小张帅 浏览 423 08-16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11