关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02379人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

最新!A股股民已超2.4亿!

券商中国 浏览 4036 07-16

汽车之家官宣冬季测试真要来了:杜绝充值 喊话陈震愿意来吗

快科技 浏览 351 10-31

何小鹏:小鹏第二代VLA没有特供版 推送给媒体和用户的一致

快科技 浏览 222 03-17

中泰证券60亿定增闯关:监管13问聚焦合理性,自有资金不足4%

Daily每日财报 浏览 6097 07-21

李斌上热搜!

电动知家 浏览 507 08-19

官宣!樊振东投资美国乒乓球大联盟 网友调侃:像詹姆斯投资CBA

醉卧浮生 浏览 10240 08-07

155亿债务压垮豪门?继母长子内斗两年,双双出局!72岁“中国民营船王”拟入主杉杉股份

经理人杂志 浏览 344 10-13

奥迪全新国产汽油A6L曝光 现款取消这些配置

网上车市 浏览 463 06-08

万通地产杀入芯片

芯榜 浏览 502 08-11

iPhone 17 Pro散热大幅改进!但依旧远远落后于安卓

雷科技 浏览 364 09-20

三只松鼠又活过来了

虎嗅APP 浏览 3486 07-13

外媒列亚洲全明星阵容:孙兴慜、三笘薰领衔,日本占7人韩国占3人

直播吧 浏览 403 09-11

高管:若东契奇能保持现在的身材 接班詹姆斯的设想将更容易实现

直播吧 浏览 3375 07-30

凌志峰任公安部副部长

界面新闻 浏览 978 07-22

基本半导体递交赴港IPO申请

证券时报 浏览 319 12-05

盖帽准三双!萨尔单场送出8次盖帽 创夏季联赛单场新纪录

直播吧 浏览 10614 07-14

搭载6nm芯片,科大讯飞发布全球首款本地大模型办公本

观察者网 浏览 7657 07-24

联合国秘书长:美国对委军事行动未尊重国际法规则

澎湃新闻 浏览 291 01-06

林俊杰被诊断出心脏病,44岁未婚无子

涵豆说娱 浏览 3058 07-14

伊姐周六热推:电视剧《南部档案》;电视剧《意外调查组》......

伊周潮流 浏览 12 06-14

大忽悠7年狂捞3.8亿,成功学如何收割底层?

快刀财经 浏览 10331 07-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11