关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:01134人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

未成年人被"月薪1万"工作吸引 被骗到缅甸3个月才回家

新民周刊 浏览 3992 08-14

记者:博洛尼亚100万欧租借费+700万买断报价米兰中场波贝加

懂球帝 浏览 1298 07-18

小黑裙,让人从夏美到秋!

Yuki女人故事 浏览 2708 07-16

徽商银行再次大幅扩员、人均年薪35.84万,董监高整体降薪12%

湘财Plus 浏览 9036 07-14

威马汽车复活?谁买?

斑马消费 浏览 5128 07-17

今年夏天“短上衣+阔腿裤”又火了,这样穿时髦又显高!

LinkFashion 浏览 4796 06-25

21岁女生确诊白血病4个月后去世 曾称身上现莫名瘀青

极目新闻 浏览 503 09-10

81岁“中国刻蚀机之父”拟减持:已从外籍恢复为中国籍,为办理税务需要

红星资本局 浏览 276 01-11

米体:伊尔迪兹想加薪,最起码薪水要和乔纳森-戴维接近

懂球帝 浏览 311 10-16

多图直击装备方队“国之重器”

中国青年报 浏览 428 09-04

小区保安与居委会副主任争执被打耳光 副主任被拘5日

红星新闻 浏览 509 09-09

从挖煤小子到专升本再到读博 男子论文致谢感动网友

潇湘晨报 浏览 3959 07-17

中国上半年5.3%GDP增速超预期 美媒对比中美一组数据

环球网资讯 浏览 1257 07-16

起底逼死前夫的翟欣欣:曾是大学"院花" 2次闪婚闪离

极目新闻 浏览 523 09-20

他,嫌李嘉诚钱少,呵呵

华商韬略 浏览 412 09-09

2025年“演技最好女演员”排名,第1实至名归海

皮皮电影 浏览 235 12-16

特朗普刚回华盛顿 8国发表联合声明不许普京做2件事

博览历史 浏览 558 08-19

8月第二周销量出炉:吉利银河、零跑双双破万,理想迎来增长

车市红点 浏览 505 08-20

媒体:印度再遭美国“致命性打击” 影响非常严重的

澎湃新闻 浏览 449 10-02

白百何好友下场了!揭露争奖细节,放话大不了鱼死网破电影不上了

萌神木木 浏览 300 11-06

梓渝事件又添新嫂子!北大网红怒锤梓渝是劈腿惯犯,网友呼吁封杀

萌神木木 浏览 5571 07-24
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11