关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02425人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美乌柏林两日会谈后 特朗普、泽连斯基同日发声

环球时报国际 浏览 306 12-16

98岁"立邦"创始人吴清亮逝世 祖籍潮汕系新加坡首富

每日经济新闻 浏览 2313 08-13

微博、快手表态

澎湃新闻 浏览 384 09-21

具俊晔新年独赴大S墓园擦碑

林木体育解说 浏览 272 01-06

弃理从文,他走出不同寻常的电影路

幕味儿 浏览 302 10-28

预计15万级还配激光雷达 长安启源A06信息曝光

网易汽车 浏览 474 05-25

7040亿美元!苹果过去10年回购花的钱,能买下全球前13大公司以外任何一家

华尔街见闻官方 浏览 4519 08-10

东风深夜公告为哪般?这波操作简直神了!

华美财经 浏览 453 08-24

“卷”疯了的世界机器人大会 四川“机器人打工天团”有多秀?

封面新闻 浏览 526 08-11

加啥班啊!某车企被曝三点半,员工就陆续下班了

小李车评李建红 浏览 254 12-19

预售45万起 腾势N9闪充版还有AI智能座舱

网易汽车 浏览 153 04-09

ChatGPT-5“不够惊艳”?最新实测来了

财联社 浏览 10531 08-09

为何文班亚马选择前往少林寺?揭秘联盟新星的非传统成长哲学

直播吧 浏览 1153 07-31

黄潜新援莫莱罗:我不是来替代巴埃纳的,他是他我是我

懂球帝 浏览 5881 07-12

宏光MINI EV再打个性牌,全新联名改装车亮相

经济观察报 浏览 2548 08-13

马斯克宣布脑机接口将量产,特斯拉自动驾驶挑战引发安全质疑

红星新闻 浏览 248 01-02

2025安徽电商大赛落幕

环球网资讯 浏览 3428 07-21

英国防大臣称访乌克兰途中 专列险被俄“榛树”导弹命中

红星新闻 浏览 251 01-14

荣耀MagicOS 10升级设备数突破1000万 力争春节前都能升

快科技 浏览 263 12-24

张艺谋谍战片定档 打了春节档一个措手不及

娱乐圈笔娱君 浏览 257 01-23

华晨宇绯闻女友黑料被扒?牵扯黄晓明

清风品历史 浏览 6280 08-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11