关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2025-10-28 00:00:01294人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马斯克开火,苹果发声

观察者网 浏览 2996 08-14

伊朗称福尔多核设施仅地上部分受损

CCTV国际时讯 浏览 1660 06-23

李易峰及名下公司等被强执4990万 律师:限高是必然

潇湘晨报 浏览 611 08-23

大连首家Apple Store正式关闭:店员与"果粉"齐聚告别

都市现场 浏览 5157 08-11

又借利好减持?金华富豪套现60亿,24万股民梦碎“千亿市值”

深蓝财经 浏览 397 09-11

市场震荡调整,科技股领跌,投资者如何布局?

国际金融报 浏览 450 09-10

多轮破亿元资金注入人形机器人赛道,资本更青睐“汽车人”造“人”?

华夏时报 浏览 10539 07-24

拉波尔塔:回到诺坎普,我流下了一些泪水

懂球帝 浏览 311 11-08

罗体:尤文将和3名球员续约至2030年 伊尔迪兹年收入可达400万欧

直播吧 浏览 1240 07-12

负债规模超4000亿 中植集团涉嫌非吸案开审

黑池财经 浏览 405 09-21

男子网贷20万和已婚女约会潇洒3个月 被拒后欲掐死对方

潇湘晨报 浏览 5883 07-30

日本首相之位将会花落谁家?

首席商业评论 浏览 397 09-21

3人因销售火麻种子被判缓刑申诉获再审 法院维持原判

澎湃新闻 浏览 283 01-29

窦骁发文辟谣婚变传闻

柠檬有娱乐 浏览 355 10-24

尖子生沉迷手机高考575分 被父母扫地出门:各自安好

大风新闻 浏览 10416 07-09

纳指,又新高!苹果,暴增超28000亿元!

证券时报 浏览 9832 08-09

泽连斯基:与美国的谈判并不容易

新华社 浏览 261 12-09

阿里业务变更为四大集团:蒋凡"太子"地位稳固

雷递 浏览 523 08-23

突然全部关停,盒马这是咋了?

功夫财经 浏览 6497 08-07

夫妻争吵男子抱起一个孩子扔河里 夫妻俩随即跳河救娃

上观新闻 浏览 240 02-24

企业在自然保护区建研学机构烂尾7年 致百亩农田荒废

封面新闻 浏览 278 11-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11