关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02445人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

歌手陈红被前夫举报 本人回应:愿女人少些背叛与伤害

大风新闻 浏览 383 09-30

泽连斯基:特朗普与普京不同 在俄只有普京能做出决定

中国新闻周刊 浏览 5538 07-05

AI教父辛顿现身上海:人类如何不被AI杀掉

态℃ 浏览 9261 07-27

王毅同印度外长会谈:双方应择高处立 实现"龙象共舞"

界面新闻 浏览 3778 07-15

李小璐被曝二胎生子,与贾乃亮早成过去式,甜馨成负面消息接盘侠

不八卦会死星人 浏览 2444 07-17

男子花6万/月租豪宅后身体不适 检测室内甲醛浓度超标

扬子晚报 浏览 1757 07-18

2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!

新智元 浏览 519 08-12

中国移动上半年“增利不增收”,董事长杨杰:追求有利润、有现金流的收入

时代周报 浏览 6917 08-09

懒懒疑已搬出王思聪豪宅,眼睛红肿开播卖货

吃瓜盟主 浏览 486 08-28

企业来出题!首届重庆市AI大模型创新应用大赛落幕

上游新闻 浏览 364 10-21

涨价五毛钱,康师傅半年少了3409家经销商

国际金融报 浏览 4982 08-13

深度复盘:大疆是如何成为影像领域新巨头的?

极客公园 浏览 332 11-12

宏福苑4小时内火警连升三级:单户最大面积44.9平方米

红星新闻 浏览 415 11-27

俄罗斯试射具备核打击能力的高超音速导弹

澎湃新闻 浏览 83 05-23

别瞎搞!美记:奥本大学后卫塔哈德-佩蒂福德因涉嫌酒驾被捕

直播吧 浏览 10656 07-13

有纯电/增程 极狐全新阿尔法T5预售12.38万起

网易汽车 浏览 348 10-15

逼死原配、代言翻车?韩红没给唐国强留一点退路

置身事内 浏览 10118 07-21

长城魏牌9年8换CEO,哈弗总经理赵永坡接任冯复之

红星资本局 浏览 264 12-23

北京农商银行新掌门人落定,新帅首次亮相

湘财Plus 浏览 287 02-05

15岁端盘时就想开演唱会!岳云鹏顶着骂声实现承诺,老同事哭了

娱乐白名单 浏览 4182 08-08

集成双4K摄像头与AI,雷蛇Project Motoko概念耳机亮相CES 2026

IT之家 浏览 272 01-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11