关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2025-11-11 00:00:01271人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

欧阳娜娜怎么不算“审美天才”少女

时尚COSMO 浏览 190 12-12

重庆航空发布中秋赏月航班 选对座位邂逅空中明月

上游新闻 浏览 363 09-30

卫报:拜仁对恩昆库的报价被切尔西拒绝,国米也对其感兴趣

懂球帝 浏览 474 08-20

真爱大牌返场|| 一上线就被抢空的牌子,这次居然100+就能拥有

黎贝卡的异想世界 浏览 287 11-06

有偶像包袱别演戏!《沉默的荣耀》于和伟干饭,打脸多少假吃演员

娱乐圈笔娱君 浏览 327 10-12

94岁杨少华去世,上午剪彩眼神涣散数小时后离世,家人做法惹争议

不八卦会死星人 浏览 6445 07-13

外媒:菲律宾从乌克兰引进无人艇 以在南海对抗中国

枢密院十号 浏览 345 09-17

这是一个跨越二十四年的纪实长镜头

幕味儿 浏览 270 11-11

33 年从夫妻摊熬成藤椒巨头,幺麻子三闯北交所……

深蓝财经 浏览 807 08-09

涨价频频 包装纸业绩可期

证券市场周刊 浏览 408 09-10

马克龙再选勒科尔尼当总理遭批,法媒:没有议会支持的总统,只会陷入更深孤立

环球网资讯 浏览 315 10-13

米体:卢克曼无论付出多大代价都不想回归亚特兰大

懂球帝 浏览 9986 08-10

国盛投资受让1.07亿股股权 复旦微电大股东拟变更

证券时报 浏览 249 11-17

泰国出动4架战机空袭柬埔寨 还在柬沿海部署8艘军舰

每日经济新闻 浏览 10581 07-27

谢娜发文为双胞胎女儿庆生,张杰转发

韩小娱 浏览 251 02-02

美国Q2实际GDP年化季环比初值3%好于预期

网易财经 浏览 6562 07-31

中超第27轮传球成功率榜:国安89.6%居首,时隔5轮再次登顶

懂球帝 浏览 254 10-23

乌外长公布无人机从匈牙利进入路线 匈外长否认

环球网资讯 浏览 374 09-28

特朗普称伊朗核设施已被“彻底摧毁”

环球时报 浏览 1953 06-22

GEO炒出了个大乌龙,301171,20CM跌停!

看财经show 浏览 258 01-21

宇树科技王兴兴: 目标是机器人真干活 给国家缴税

21世纪经济报道 浏览 3124 08-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11