参考指南

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

传美国入股？...

战火连天！以...

泰权威！复刻...

反洗钱监管体...

知名男歌手复...

《南京照相馆...

宁夏取消七家助贷机构涉金融事项经营资质，释放什么信号？

郭磊：9月PMI的七个信号

穆迪：卢尼带我入门瑜伽这项运动我们经常一起练习

4岁半男童玩耍关卧室门打不开翻窗户坠落22楼受重伤

官方：新疆足球超级联赛5月至7月举办，分为南北区共14支球队

100多名乘客被赶下飞机滞留5小时东海航空发文致歉

妻子趁丈夫打工找了2个情夫手机里全是和情夫不雅照

何聪睿剧扑甩锅女主，本人发声道歉

F1比利时站正赛：皮亚斯特里夺冠乐扣第3 汉密尔顿18发车第7带回

法媒：里尔有意贝蒂斯左后卫罗曼-佩罗

波音客机“掉门”事故中公司和监管方均失职

澳外长拱火：美国不想与中国交战但亚洲需要力量平衡

林志玲老公空手让老婆背大包，志玲被“日化”？

勇士今夏首笔操作！队记Slater转会至ESPN

金店上千万元金饰被洪水冲走：有人带探测仪找＂黄金＂

离开贾玲的张小斐被高估了吗？答案可不简单

停更4天后，罗永浩微博恢复更新：用预制菜给消费者知情权没那么复杂

如何来选购优质螃蟹？

2025款奔驰GLB 220典藏版上市售价34.99万

联合国机构：加沙爆炸物污染严重已成＂每日紧急危机＂

数百犹太裔知名人士签署公开信：呼吁制裁以色列

俄副外长：俄方要求美英就乌袭击俄军用机场作出明确回应

特朗普或优先“做掉”欧洲？

活塞31分狂胜尼克斯巩固东部第一坎宁安29+13布伦森25分