关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2025-10-28 00:00:01311人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

名记:76人和格莱姆斯的谈判进展缓慢 目前预期是双方至少续约3年

直播吧 浏览 5263 07-18

董璇再婚现场照曝光!关悦佟丽娅出席场面朴实,男方黑历史被扒

萌神木木 浏览 4074 07-16

美国人羡慕哭了!花一辆美国新车的钱 在中国能买五辆电车

快科技 浏览 129 04-29

字节跳动回应“豆包手机”传闻:无自研计划 聚焦AI能力开放合作

环球网资讯 浏览 539 08-20

94岁杨少华去世,上午剪彩眼神涣散数小时后离世,家人做法惹争议

不八卦会死星人 浏览 6468 07-13

给你一个互换生活的机会,你敢吗?

时尚COSMO 浏览 1941 06-25

日本制造神话破灭?中国彩电正在攻陷日本

快刀财经 浏览 4054 07-17

“玻璃大王”曹德旺提前退休,儿子曹晖接班后福耀帝国走向何方?

尺度商业 浏览 384 10-20

美团杀入开源大模型混战:LongCat登场,推理速度直破100 Token/s

AI寒武纪 浏览 449 09-01

简直了!黄金又双叒新高了!这些黄金主题基金年内涨超60%!

私募排排网 浏览 439 09-10

特朗普透露夜袭细节:"堡垒"中抓走马杜罗

新华社 浏览 215 01-04

杨洋传遇上缅北剧组 开机就离开剧组?

陌上桃花开的 浏览 247 02-24

薛鹤翔:政策预期仍在,警惕供应压力-工业硅期货

首席经济学家论坛 浏览 377 09-21

真爱大牌返场|| 一上线就被抢空的牌子,这次居然100+就能拥有

黎贝卡的异想世界 浏览 301 11-06

给《树影迷宫》演技最好的7位演员排座次:刘琳第3,第1无法超越

娱乐圈笔娱君 浏览 292 11-05

二次元“入侵”金饰,“痛金”带火黄金“谷子”!某95后:打金更有性价比

时代周报 浏览 7656 08-10

深圳学生自制无人机创世界纪录,9家企业“找上门”提供支持

南方都市报 浏览 9274 07-24

足球报:国安只是暂时度过危机,现在算计积分排名没有太多意义

直播吧 浏览 561 08-26

日本呼吁各国不要参加中国九三阅兵活动 外交部回应

澎湃新闻 浏览 650 08-27

“拜把子”的英伟达英特尔,开启“芯片大战”序幕

钛媒体APP 浏览 414 09-20

三年研发投入110亿!品质永远是内卷时代必须坚守的底线

赶碳号 浏览 4789 07-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11