关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:0137人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

vivo X200 / X100 系列手机 8 月升级快报发布

IT之家 浏览 435 08-19

“十四五”期间全国统一大市场的“四梁八柱”基本建立

上观新闻 浏览 343 09-21

美国驻以色列大使狠批英国首相 外媒:猛烈程度罕见

参考消息 浏览 7584 08-10

首开记录!加西亚社媒晒庆祝照:开启夏季巡回赛!再会,日本!

直播吧 浏览 2494 07-28

戏剧光影点亮城市文旅商体展的N+1种可能|2025静安戏剧文化传播创新沙龙

第一财经商业数据中心 浏览 5086 07-18

手机、汽车直连卫星通信 偏远地自驾游也无需担心通讯不畅

封面新闻 浏览 4985 07-12

惊险时刻,一名罗马球迷从看台跌落,罗马球员全程守候

懂球帝 浏览 7645 07-27

陈水扁屡踩红线后终于"踢铁板" 被指与赖清德关系生变

海峡导报社 浏览 197 01-05

8月2日徐州队VS扬州队门票即将开票 票价依然是5元/张!

直播吧 浏览 3074 07-29

AI重塑就业版图 专项政策护航转型之路

北京商报 浏览 192 01-28

泰军方向26国发函:柬埔寨率先开火并袭击平民

央视新闻客户端 浏览 2905 07-27

央广时评丨汇聚中外好物 “丝路电商”创享消费新体验

海外网 浏览 6669 07-26

2025WAIC首次地下开展,最年轻板块签下2.68亿元意向订单

上观新闻 浏览 4729 07-29

黄宗泽哭着拿双料视帝,10次提名终于熬出头

手工制作阿歼 浏览 181 01-06

智元机器人获正大集团注资,探索零售、康养服务等场景应用

南方都市报 浏览 1891 07-16

江一燕官宣离婚后首发声

扒虾侃娱 浏览 245 10-31

陈幸同4-2孙颖莎 获横滨站女单冠军&1000分

乒谈 浏览 451 08-12

外卖之后,大厂鏖战硬折扣

伯虎财经 浏览 6937 08-12

【央行重磅出手】5000亿资金落地!中信银行、兴业银行、民生银行等六大商业银行企业融资黄金窗口开启

闺蜜财经 浏览 399 09-02

媒体人:王奕博转会需俱乐部、体育局双盖章,不排除新赛季无球可打

懂球帝 浏览 4156 08-13

蔚来艰难求盈利

北京商报 浏览 195 11-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11