关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:01156人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

4岁半男童玩耍关卧室门打不开 翻窗户坠落22楼受重伤

极目新闻 浏览 4382 08-13

官方:新疆足球超级联赛5月至7月举办,分为南北区共14支球队

懂球帝 浏览 234 03-03

100多名乘客被赶下飞机滞留5小时 东海航空发文致歉

极目新闻 浏览 424 10-01

妻子趁丈夫打工找了2个情夫 手机里全是和情夫不雅照

汉史趣闻 浏览 4294 08-07

何聪睿剧扑甩锅女主,本人发声道歉

扒虾侃娱 浏览 308 01-21

F1比利时站正赛:皮亚斯特里夺冠 乐扣第3 汉密尔顿18发车第7带回

直播吧 浏览 10189 07-28

法媒:里尔有意贝蒂斯左后卫罗曼-佩罗

直播吧 浏览 10297 07-25

波音客机“掉门”事故中公司和监管方均失职

极目新闻 浏览 2492 06-25

澳外长拱火:美国不想与中国交战 但亚洲需要力量平衡

澎湃新闻 浏览 1329 07-12

林志玲老公空手让老婆背大包,志玲被“日化”?

不八卦会死星人 浏览 6210 07-09

勇士今夏首笔操作!队记Slater转会至ESPN

直播吧 浏览 949 07-17

金店上千万元金饰被洪水冲走:有人带探测仪找"黄金"

极目新闻 浏览 2855 07-27

离开贾玲的张小斐被高估了吗?答案可不简单

巴塞电影 浏览 5615 07-09

停更4天后,罗永浩微博恢复更新:用预制菜给消费者知情权没那么复杂

三言科技 浏览 339 09-21

如何来选购优质螃蟹?

人民网 浏览 7911 10-04

2025款奔驰GLB 220典藏版上市 售价34.99万

车质网 浏览 231 11-25

联合国机构:加沙爆炸物污染严重 已成"每日紧急危机"

极目新闻 浏览 107 05-01

数百犹太裔知名人士签署公开信:呼吁制裁以色列

环球时报国际 浏览 344 10-25

俄副外长:俄方要求美英就乌袭击俄军用机场作出明确回应

环球网资讯 浏览 7713 06-05

特朗普或优先“做掉”欧洲?

浏览 6684 07-14

活塞31分狂胜尼克斯巩固东部第一 坎宁安29+13布伦森25分

醉卧浮生 浏览 282 01-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11