参考指南

9月9日（星期二）消息，国外知名科学网站的主要内容如下：

《自然》网站（www.nature.com）

AI能学会说“我不知道”吗？幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用（即“幻觉”问题）是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展，其通过增强实时信息检索与优化训练方式，在多项基准测试中表现出更低的幻觉率。

从技术机制上看，大型语言模型（LLM）本质上基于概率生成文本，其幻觉源于模型对训练数据中统计模式的泛化，而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能，但在训练覆盖不足或存在冲突信息的领域中，模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性，并强化其“诚实性”机制，鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下，GPT-5在文献综述基准测试（如ScholarQA-CS）中表现接近甚至部分超过人类专家水平，但在离线环境下性能仍会显著下降。

横向对比显示，GPT-5在长文本事实性评测（如LongFact）中幻觉率低于自身前代模型及其他推理模型，但在某些以文档摘要真实性为评估目标的测试（如Vectara的Hughes评测）中略逊于谷歌的Gemini 2.0，总体仍处于业界领先水平。

目前，包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法，旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出，亟需建立更贴近实际应用场景的评估框架，充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时，构建用户对AI系统的合理预期与批判使用能力，同样

把麦秸秆加进混凝土，强度竟然更高了

蒙特利尔的突...

最新民调数据...

王楚钦/孙颖...

今日热点：《...

终结三连败！...

陈奕迅公开承...

2026北京车展，38万平方面的骄傲、焦虑与追问

微综艺打响“小而美”大战

美防长来了核潜艇议题搅动韩国

美乌柏林两日会谈后特朗普、泽连斯基同日发声

98岁＂立邦＂创始人吴清亮逝世祖籍潮汕系新加坡首富

微博、快手表态

具俊晔新年独赴大S墓园擦碑

弃理从文，他走出不同寻常的电影路

预计15万级还配激光雷达长安启源A06信息曝光

7040亿美元！苹果过去10年回购花的钱，能买下全球前13大公司以外任何一家

东风深夜公告为哪般？这波操作简直神了！

“卷”疯了的世界机器人大会四川“机器人打工天团”有多秀？

加啥班啊！某车企被曝三点半，员工就陆续下班了

预售45万起腾势N9闪充版还有AI智能座舱

ChatGPT-5“不够惊艳”？最新实测来了

为何文班亚马选择前往少林寺？揭秘联盟新星的非传统成长哲学

黄潜新援莫莱罗：我不是来替代巴埃纳的，他是他我是我

宏光MINI EV再打个性牌，全新联名改装车亮相

马斯克宣布脑机接口将量产，特斯拉自动驾驶挑战引发安全质疑

2025安徽电商大赛落幕

英国防大臣称访乌克兰途中专列险被俄“榛树”导弹命中

荣耀MagicOS 10升级设备数突破1000万力争春节前都能升

张艺谋谍战片定档打了春节档一个措手不及

华晨宇绯闻女友黑料被扒？牵扯黄晓明