关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02349人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Cariad不再是“灵魂”担当,大众请外援能否赌赢未来?

禾颜阅车 浏览 214 10-20

阿瑙哽咽追忆米哈:我兑现了承诺,他如同我的兄弟、父亲

懂球帝 浏览 8785 07-27

巴方:美取消巴勒斯坦领导人签证违反国际法

国际在线 浏览 340 08-30

浪浪山与东极岛

电影最TOP 浏览 1658 08-11

多股应声涨停!A股中报行情如火如荼 13家上市公司净利最高同比预增超800%

财联社 浏览 9573 07-13

特朗普所谓"重大声明"揭晓:对俄加关税 对乌"送"导弹

央视新闻客户端 浏览 2935 07-16

一艘从中国出发的货轮将试航北方海路新路线 中方回应

外交部网站 浏览 431 09-20

台风"桦加沙"成今年全球风王 广东将处于危险半圆

中国天气网 浏览 328 09-23

半年暴涨超470%!中际旭创,实控人拟套现22亿!

侃见财经 浏览 292 09-29

吉利发布行业首个AI座舱,超拟人情感智能体Eva上车

环球网资讯 浏览 422 08-21

U23亚预赛印尼0-1不敌韩国,无缘正赛阶段

懂球帝 浏览 338 09-10

智能马桶突然喷出冒烟的开水烫伤隐私部位 当事人发声

扬子晚报 浏览 371 10-01

银华基金主动权益基金溃败 39只基金过去3年最大回撤40%+

网易财经 浏览 3262 07-16

辽宁队再次弃权 参加选秀11年仅选过杜佳宝和张立文两名自家出品

直播吧 浏览 8034 07-26

苹果CEO库克抖音首秀直播带货,iPhone Air国行版10月17日开启预售

环球网资讯 浏览 250 10-14

28亿天价索赔!A股房企向创始人跨国追债

网易财经 浏览 2689 07-26

李想老友创业7年,拒绝孙正义控股,要做商用车里的特斯拉

中国企业家杂志 浏览 425 08-19

高尿酸血症:隐形的健康威胁

浏览 9226 07-14

媒体:俄海军"去航母化"是在现实约束下走出的最优解

新民周刊 浏览 373 09-15

海底捞:在6月至8月夜宵黄金期推出“夜宵菜单”

网易科技报道 浏览 10381 07-12

第七届“科学探索奖”颁奖 50位青年科学家每人获300万元奖金

封面新闻 浏览 346 09-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11