关闭广告

刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

华尔街见闻官方2026-01-02 00:00:01246人阅读

来源:机器之心

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。

简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。


这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。<

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

预警指挥机梯队:中国军队海空预警指挥体系发展新成果

新华社 浏览 371 09-04

机器人商用拐点要来了?智元邓泰华:下一代海量智能终端是它

南方都市报 浏览 478 08-22

保安打人赔35万结案13年后15人被公诉 被害人从未控告

澎湃新闻 浏览 352 10-17

江中药业:原副总任期内兼任控股股东副总 解决同业竞争承诺或现信披疑云

金证研 浏览 7321 08-12

红不过十天就塌房!男星田栩宁疑似孕期出轨?

萌神木木 浏览 9818 07-09

200亿吉林央企换届,75后董事长连任,人均薪酬37万元

华美财经 浏览 428 09-11

70岁特鲁西埃:如果有俱乐部邀请我,我或许可以坚持五到十年

直播吧 浏览 465 08-20

寻找AI无法替代的最后一公里丨去现场 做原创

封面新闻 浏览 326 11-08

德媒:德总理拟动用俄央行在德冻结资产援乌

新华社 浏览 247 12-20

一千多人牺牲结局,无法改写,但于和伟临刑前一个动作,升华全剧

皮皮电影 浏览 328 10-23

微信“分付”灰度上线借款功能,腾讯金融再进一步

北京商报 浏览 6446 08-14

美股三大股指集体收跌 人工智能概念股持续遭抛售

中新经纬 浏览 255 12-16

冯德莱恩对中国提出三项要求 外交部回应

环球网资讯 浏览 3794 07-10

外卖大战中的骑手:收入多了就是好事

界面新闻 浏览 2436 07-18

英媒:如果阿森纳错过埃泽,将加大力度追求卢克曼

懂球帝 浏览 1284 08-09

“看好中国新经济!” 渣打集团行政总裁温拓思最新发声

券商中国 浏览 369 10-13

鲁伊斯谈击败樊振东:我多变化就有取胜机会,希望他尽快适应德国

直播吧 浏览 567 09-01

14分战胜新西兰男篮 中国男篮时隔十年再进亚洲杯决赛

澎湃新闻 浏览 601 08-17

魔兽:我曾觉得能成湖人的建队核心 科比认为那永远是他的球队

直播吧 浏览 387 09-11

亏懵了!明星基金经理新基金成立仅两月亏去8%,和大盘反着走,基民:让人失望

红星资本局 浏览 565 08-12

镇域经济的“头部玩家”,还得是这三个省

时代周报 浏览 475 08-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11