关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:01155人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

领克03的“反向预判”:大尺寸进气格栅被时间证明

全球汽车汇 浏览 9 06-15

英媒:利物浦后卫乔-戈麦斯恢复训练,他上月底遭遇跟腱伤势

直播吧 浏览 2514 08-14

又见A股实控人获刑!因犯操纵证券市场罪 ST东时实控人一审被判六年半|速读公告

财联社 浏览 2629 07-12

一汽奔腾方杨:新能源转型1年销量13.6万辆

贝壳财经 浏览 3173 07-13

OpenAI罕见开源两款模型,奥特曼:这是耗费数十亿美元的成果

网易科技报道 浏览 6953 08-06

土耳其主帅:约基奇篮下统治力更强 他们的威胁点不只约基奇

直播吧 浏览 524 09-02

“鱼骨裙”又火了?扒一扒“鱼骨家族”,又纯又欲撩爆了!

Yuki女人故事 浏览 9762 07-22

“借鸡生蛋”玩崩!一家由上市公司背书的平台,卷入10亿风暴

深蓝财经 浏览 300 11-12

基于通义万相开发,美图多款APP上线动漫特效、变身等视频生成功能

财闻 浏览 422 09-11

长城资产清仓退出,四川银行43亿入主长城华西银行

达摩财经 浏览 3662 07-16

三高人群最爱这种食物

北京青年报 浏览 1243 11-01

专为城市出行而来 零跑Lafa5将于慕尼黑车展首发

网易汽车 浏览 432 09-09

相同的3nm工艺:天玑9500要比第五代骁龙8至尊版便宜50%以上!

快科技 浏览 364 10-13

特朗普:即将公布各国关税信函 税率最高70%

浏览 1709 08-20

日本首相之位将会花落谁家?

首席商业评论 浏览 415 09-21

奥特曼气到快失眠?OpenAI前大佬力挺:小扎砸钱挖墙脚,1亿美元很合理

新智元 浏览 3447 07-14

西安阿房宫药业遭问询,业绩连亏6年

粉巷财经 浏览 1691 07-25

一箱油跑1000km 长安逸动限时7.29万起

网易汽车 浏览 404 09-08

又爆了一部新片,他今年太火了

独立鱼 浏览 354 09-22

努诺:我和老板进行了交流,俱乐部面临的困难需要我们去解决

懂球帝 浏览 421 09-01

归母净利大增94%!中金公司拿什么构建头部券商护城河?

功夫财经 浏览 531 09-01
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11