关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02359人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子称车停成都却收到重庆罚单:车牌号后面都一样

极目新闻 浏览 400 09-15

赋予科研“超能力”!中国科学大模型亮相国际AI峰会

文汇报 浏览 3046 07-15

北青体育:王钰栋、胡荷韬已被部分欧洲俱乐部盯上

直播吧 浏览 455 09-10

美国正式退出世卫组织 还欠费2.6亿美元

都市快报橙柿互动 浏览 273 01-23

伊朗"蚊子舰队"披露:被美方视为霍尔木兹海峡的主要威胁

扬子晚报 浏览 138 04-22

性能增强 阿斯顿·马丁 Vantage S官图发布

车质网 浏览 9847 07-09

法媒:"爱泼斯坦案"或是特朗普重返白宫后最大炸弹

环球网资讯 浏览 5563 07-24

国际油价上涨谁会是赢家?外媒:美国石油商“直接受益”,跨国油企希望回归平稳

环球网资讯 浏览 190 03-17

好好的为何会“多长一颗牙”?揭秘多生牙!

网易健康 浏览 5498 03-17

胜利就是最佳礼物,B费:为曼联出战300场最好的庆祝方式

懂球帝 浏览 254 10-27

李在明:韩美贸易谈判僵持 美不能给韩带来灾难性后果

新京报 浏览 269 10-28

搭载6nm芯片,科大讯飞发布全球首款本地大模型办公本

观察者网 浏览 7644 07-24

弱化电动布局 英菲尼迪最新消息曝光

乐选爱车 浏览 479 08-25

特朗普被指私下鼓动乌加强对俄纵深打击

环球网资讯 浏览 4916 07-16

刚刚,苹果发布会定档9月!iPhone 17迎史诗级更新?

雷科技 浏览 2231 08-07

埃及成立危机委员会应对以伊冲突影响

国际在线 浏览 9126 06-18

个人消费贷款贴息开闸!多家银行提前预热

每日经济新闻 浏览 492 09-01

法甲+欧联九连败,巴黎人报:尼斯主帅弗朗克-海瑟已正式下课

懂球帝 浏览 290 12-29

李昊:扑救就是一个小部分,最重要的是大家整体的防守

懂球帝 浏览 376 09-10

"2.8万救护车事件"患儿亲属:不存在使用车上ECMO情况

潮新闻 浏览 4252 06-25

顶流男星陷“禁演”罗生门?

仙女事件簿 浏览 185 03-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11