参考指南

9月9日（星期二）消息，国外知名科学网站的主要内容如下：

《自然》网站（www.nature.com）

AI能学会说“我不知道”吗？幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用（即“幻觉”问题）是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展，其通过增强实时信息检索与优化训练方式，在多项基准测试中表现出更低的幻觉率。

从技术机制上看，大型语言模型（LLM）本质上基于概率生成文本，其幻觉源于模型对训练数据中统计模式的泛化，而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能，但在训练覆盖不足或存在冲突信息的领域中，模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性，并强化其“诚实性”机制，鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下，GPT-5在文献综述基准测试（如ScholarQA-CS）中表现接近甚至部分超过人类专家水平，但在离线环境下性能仍会显著下降。

横向对比显示，GPT-5在长文本事实性评测（如LongFact）中幻觉率低于自身前代模型及其他推理模型，但在某些以文档摘要真实性为评估目标的测试（如Vectara的Hughes评测）中略逊于谷歌的Gemini 2.0，总体仍处于业界领先水平。

目前，包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法，旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出，亟需建立更贴近实际应用场景的评估框架，充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时，构建用户对AI系统的合理预期与批判使用能力，同样

把麦秸秆加进混凝土，强度竟然更高了

一大波迎国庆...

约6000人...

材料学新突破...

高德杀入美团...

疑又一款六代...

NT3.0平...

难看就是难看！

50+姐姐秋冬穿对赢麻了！别硬凹少女感，3个技巧穿出显贵感

探访千年蒙山大佛！蒙克中国行太原站最新动态来袭

歌手陈红被前夫举报本人回应：愿女人少些背叛与伤害

泽连斯基：特朗普与普京不同在俄只有普京能做出决定

AI教父辛顿现身上海：人类如何不被AI杀掉

王毅同印度外长会谈：双方应择高处立实现＂龙象共舞＂

李小璐被曝二胎生子，与贾乃亮早成过去式，甜馨成负面消息接盘侠

男子花6万/月租豪宅后身体不适检测室内甲醛浓度超标

2025全球大模型应用报告：红海混战「忠诚度」瓦解，用户脚踏4.7条船！

中国移动上半年“增利不增收”，董事长杨杰：追求有利润、有现金流的收入

懒懒疑已搬出王思聪豪宅，眼睛红肿开播卖货

企业来出题！首届重庆市AI大模型创新应用大赛落幕

涨价五毛钱，康师傅半年少了3409家经销商

深度复盘：大疆是如何成为影像领域新巨头的？

宏福苑4小时内火警连升三级：单户最大面积44.9平方米

俄罗斯试射具备核打击能力的高超音速导弹

别瞎搞！美记：奥本大学后卫塔哈德-佩蒂福德因涉嫌酒驾被捕

有纯电/增程极狐全新阿尔法T5预售12.38万起

逼死原配、代言翻车？韩红没给唐国强留一点退路

长城魏牌9年8换CEO，哈弗总经理赵永坡接任冯复之

北京农商银行新掌门人落定，新帅首次亮相

15岁端盘时就想开演唱会！岳云鹏顶着骂声实现承诺，老同事哭了

集成双4K摄像头与AI，雷蛇Project Motoko概念耳机亮相CES 2026