关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02282人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国向欧盟、墨西哥发出"关税通牒" 盟友强硬回怼

大象新闻 浏览 7322 07-13

俄军中将在汽车炸弹爆炸中身亡 现场画面披露

央视新闻客户端 浏览 186 12-23

哈佛辍学00后如何创下20亿美元财富神话|AI原生100

虎嗅APP 浏览 7382 07-12

胡润百富榜发布!刘永行、朱义、刘永好、刘汉元、张勇排川商前五

红星资本局 浏览 246 10-29

一口价15.99万起/交互升级 新款凯迪拉克XT4上市

网易汽车 浏览 495 05-26

阔腿裤失宠了?这4条裤子承包你整个秋天的时髦!

LinkFashion 浏览 305 09-07

亮剑西太平洋 歼-15大雨中挂实弹起飞驱离外机

看看新闻Knews 浏览 7343 06-23

余鹏翔否认冒充国务院参事:我身份特殊 用的是假名字

中国新闻周刊 浏览 5779 08-11

百度地图被指打车插广告、关闭键太隐蔽,回应:有明显按钮,可随时手动关闭

红星资本局 浏览 348 09-02

2026款比亚迪海豹05 DM-i上市 售价7.98万元

车质网 浏览 231 10-13

北大腾讯团队只改一行代码,让AI图像生成效果提升20%!

科技行者 浏览 177 01-28

以军72小时内袭击叙利亚 黎巴嫩等6国

环球网资讯 浏览 351 09-12

10万级纯电SUV,东风纳米06/比亚迪元UP谁更值?

智电汽车. 浏览 433 05-10

最圆最近!年度超级月亮今晚登场

封面新闻 浏览 229 11-05

赛力斯今日登陆香港主板 成首家“A+H股”新能源车企

上游新闻 浏览 241 11-05

周杰伦首条抖音更新,IP地址为福建

齐鲁壹点 浏览 7459 07-12

手心总在“下雨”?别让手汗偷走你的自信与机遇

网易健康 浏览 499 08-12

委内瑞拉外长会见美外交使团团长

环球网资讯 浏览 182 02-02

宇树澄清:去年人形机器人出货量超5500台,不含其他产品

南方都市报 浏览 201 01-23

世锦赛男子100米自由泳预赛:潘展乐第六晋级半决赛,王浩宇出局

直播吧 浏览 7032 07-30

AI跨步进入“经验时代”

华尔街见闻官方 浏览 366 09-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11