关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2025-10-28 00:00:01240人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

淘宝闪购团购,加码黄金周

雷峰网 浏览 261 09-26

鸿蒙智行"9系"扩容 首款MPV智界V9来了

网易汽车 浏览 198 12-11

宋丹丹随口一句 揭开董璇张维伊婚姻的“遮羞布”

娱乐圈笔娱君 浏览 2713 08-06

以总理公开谴责马克龙:承认巴勒斯坦国是奖励恐怖主义

红星新闻 浏览 4830 07-26

全球最富黑人榜:乔丹38亿仅第六 詹姆斯12亿 蕾哈娜10亿

直播吧 浏览 366 09-11

对话倪海厦传承人,为什么说多数赛博中医会走不下去?

虎嗅APP 浏览 210 12-29

牛弹琴:特朗普发出最后通牒 普京根本不信正在憋大招

上游新闻 浏览 3978 07-16

保安打人赔35万结案13年后15人被公诉 被害人从未控告

澎湃新闻 浏览 293 10-17

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 233 11-04

王艺迪1-3不敌桥本帆乃香,无缘WTT瑞典站女单八强

懂球帝 浏览 382 08-22

响应“人工智能+”国家行动,方舟健客(06086)“杏捷大模型”通过国家备案,为AI+慢病管理注入新动能

智通财经 浏览 279 11-03

樊振东参加英超名人堂球员二选一挑战,最终选择贝克汉姆

懂球帝 浏览 200 11-04

中金黄金股价一度跌超7% 子公司矿厂致6名大学生溺亡

网易财经 浏览 4050 07-24

还是别买了,这个超火的单品连郑秀晶钟小姐穿上也不种草

黎贝卡的异想世界 浏览 7270 07-31

弗里克:我们为新赛季做好了准备 库巴西情况良好

直播吧 浏览 3592 08-06

《风林火山》亏了4.2亿,古天乐终于拿出这部藏了6年的动作大片

靠谱电影君 浏览 279 10-12

特朗普拟“收编”英特尔:百亿美元补贴作价,国家成10%大股东

网易科技报道 浏览 475 08-19

大模型走到十字路口,未来机会在哪?

封面新闻 浏览 7133 07-28

新一代空降战车家族首次亮相 专家解读

环球网 浏览 381 09-04

泰国军方:泰柬边境冲突第5天 柬方彻夜开火

界面新闻 浏览 7266 07-29

媒体:"普特会"时长比预期缩短 释放多重信号信息量大

环球时报新闻 浏览 425 08-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11