关闭广告

商汤科技发布万字长文:多模态是通往AGI必经之路

网易科技报道2025-08-13 12:00:017882人阅读

本文信息:作者为科技联合创始人、执行董事、首席科学家林达华,题目为《迈向多通用智能:商汤的思考》。以下为正文:

AI 是一场长跑。从大语言模型(LLM)的兴起到真正意义的通用人工智能(AGI),还有很多开放性的问题有待解决。我们认为,多模态是从 LLM 到 AGI 的必经之路。

围绕多模态,从智能演进、学习范式、数据和模型架构都面临诸多挑战,也有很大的创新空间;在组织和战略层面也有很多值得思考的问题。在本文中,我先整体回顾一下商汤的多模态之路,然后就其中的关键问题谈一下我们的思考。

1、商汤多模态之路概览

商汤是从计算机视觉技术出发,在人工智能变革浪潮中发展起来的企业。在发展之初,商汤基于深度学习在视觉领域的运用,在人脸识别、画质处理、智能驾驶等多个应用方向突破了工业红线,推动了 AI 技术在行业的落地应用。

早在2019年,商汤就基于自身的技术判断,开始在视觉模型上进行尺度定律的探索,在业内率先推出百亿参数的视觉大模型,在视觉识别上突破了多项性能纪录。这一前瞻性的技术观察,也是推动商汤较早就进行大规模 AI 算力投入的重要原因。

2022年底,OpenAI 推出 ChatGPT,掀起了全球范围的大模型浪潮,AI 进入了2.0时代。对于商汤来说,这是一次重要的机遇。我们当时开始思考,当视觉模型和语言模型在尺度定律上相会,会给我们带来什么?

在2023年3月,商汤和上海人工智能实验室合作研发,推出了我国首个多模态通用大模型“书生2.5” 并开源。这个30亿参数的大模型刷新了包括 ImageNet 和 COCO 在内的多个视觉任务的纪录,并且初步展示了通用图文问答能力。在6个月之后,Open

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英美有多“铁”

国际金融报 浏览 390 09-22

拉波尔塔:姆巴佩的做法确实让我感到意外,无论输赢都要大度

懂球帝 浏览 225 01-13

换机周期持续拉长,OPPO推出一款“长寿”手机

经济观察报 浏览 420 09-10

萨巴伦卡取得年终总决赛两连胜

体坛周报 浏览 275 11-05

马斯克发文"特斯拉在中国取得了最高成绩" 懂车帝回应

红星资本局 浏览 8823 07-26

辛巴宣布退出直播行业 此前自创品牌卫生巾检出致癌物

极目新闻 浏览 651 08-19

王晓晨夫妇捷克再被拍,俞灏明罕穿短袖露伤疤

探源历史 浏览 524 08-18

男子疑心梗住院被急诊医生误诊 转入普通病房后身亡

大风新闻 浏览 255 01-09

美军突袭马杜罗的秘密武器 遭特朗普披露

环球时报国际 浏览 238 01-27

印度与俄罗斯宣布:加强稀土合作

参考消息 浏览 1881 08-09

大巴黎主场服务近25年的播音员退休,继任者曾为法国男篮播音

懂球帝 浏览 506 08-22

百度花了19亿美元买的“91助手”,即将成为历史

深蓝财经 浏览 448 09-01

万科的最后一张王牌:千万年薪美女董秘

诗与星空 浏览 848 07-11

身价第一的全球大网红“野兽先生”哭穷,为啥?

喜欢历史的阿繁 浏览 380 09-29

摩友称在盘山公路被超车逆行奔驰逼停 对方猛踹其摩托

大风新闻 浏览 2014 08-05

加拿大攘外安内:考虑限制木材出口促进加美贸易和解,出台钢铁关税配额制

华尔街见闻官方 浏览 4522 07-17

2025年最烂大街的6套穿搭!看看你踩雷了吗?

Yuki女人故事 浏览 4037 07-27

来搞笑的?超级杯花名册漏洞百出:照片古早且粗糙,译名叠词

懂球帝 浏览 201 03-03

澳足协批准米兰来战,亚足联

体坛周报 浏览 321 10-25

比亚迪李柯:公司计划年底前在欧洲 32 国开设超千家门店

IT之家 浏览 425 09-09

廷贝尔:联赛杯决赛也许能成为争冠动力;哈弗茨不是安静的人

懂球帝 浏览 246 02-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11