关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02464人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

配置升级 2026款起亚嘉华将于9月1日上市

车质网 浏览 442 08-20

官方:新疆足球超级联赛5月至7月举办,分为南北区共14支球队

懂球帝 浏览 233 03-03

绕开监管突破24%限制 分期商城变相放贷息费高达60%

南方都市报 浏览 259 12-21

“幽灵外卖”卷土重来

餐饮老板内参 浏览 1400 08-12

对话钦培吉:77岁的莲花,不做六边形战士

网易汽车 浏览 378 09-29

三镇小将姜利勋:中超首秀还是有点放不开,教练一直在鼓励我

懂球帝 浏览 229 03-11

周也的《红舞鞋》能在骂声中逆袭吗?

八卦三缺一 浏览 5869 08-14

张国强:被前妻嫌穷,如今苦尽甘来

小娱乐悠悠 浏览 372 09-29

英法首次明确将协调核威慑力量

浏览 6311 07-14

爱康国宾CEO曾揭行业造假黑幕:抽血后不检测直接倒掉

正在新闻 浏览 4713 07-18

华为联合打造全球首个 700MHz 8T8R 极简 5G 应急基站

IT之家 浏览 3048 07-17

蔡依林《PLEASURE》巡回演唱会首站启幕

环球网资讯 浏览 266 01-07

2025最妖ST股:暴涨8倍,7000人吃饱,人均赚105万

壹只灰鸽子 浏览 526 08-23

月销破2万辆 极狐年销翻番在望 摸到准一线门槛

乐逗汽车 浏览 293 11-02

俄罗斯海军完成“七月风暴”作战演习

浏览 153923 09-26

中科院理化所:在自融合液态金属变形机制方面取得新进展

IT之家 浏览 295 01-19

尼昂:外界没帮莱奥,他需要帮助

懂球帝 浏览 73 05-28

赞布罗塔:要注重技术和想象力,现在真正的天才越来越少了

懂球帝 浏览 4783 08-07

暴涨2500亿!首富钟睒睒,彻底“翻身”

侃见财经 浏览 4669 07-24

三星首发2nm移动芯片:为拔头筹,不惜“开倒车”

雷科技 浏览 275 12-23

星河启智科学智能开放平台即将上线

观察者网 浏览 5588 07-24
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11