2026年1月,阿里巴巴旗下通义千问团队宣布Qwen3-TTS系列模型全面开源,包括1.7B和0.6B两种参数规模的模型。这一开源动作标志着高质量语音合成技术从少数公司的闭源壁垒,走向了全球开发者的开放共创。
与市场上已有的语音合成技术相比,Qwen3-TTS不仅实现了音色克隆、音色创造和智能语音控制三大核心功能的统一,更在多语言支持、生成质量和低延迟流式生成等方面达到了行业领先水平。
Github: https://github.com/QwenLM/Qwen3-TTS
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
Blog: https://qwen.ai/blog?id=qwen3tts-0115
Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-TTS
01 技术架构:打破传统的创新设计
Qwen3-TTS的技术核心在于其 “离散多码本语言模型架构” 彻底摒弃了传统语音合成中语言模型与声学模型分离的级联设计。
这种端到端的架构避免了信息在多个模型间传递时的损耗,实现了从文本到语音的全信息建模。
模型采用自研的Qwen3-TTS-Tokenizer-12Hz作为语音编码器,能够以每秒12帧的频率对语音信号进行高效编码。这一设计在保证语音质量的同时,实现了对副语言信息和声学环境特征的完整保留。
值得一提的是,Qwen3-TTS创新的 “Dual-Track双轨建模” 技术,使得单个模型既能支持流式生成(逐字输出语音),也能支持非流式生成(整句输出)。在流式生成模式下,端到端合成延迟可低至97毫秒,满足实时交互场景的严苛需求。
02 模型矩阵:两大系列满足多元需求
Qwen3-TTS开源系列提供了1.7B和0.6B两种参数规模的模型,形成完整的功能矩阵:
| | | | |
|---|
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | | | |
| Qwen3-TTS-12Hz-1.7B-CustomVoice | | | |
| | | | |
| Qwen3-TTS-12Hz-0.6B-CustomVoice | | | |
| | | | |
所有模型均支持中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语等10种主流语言,并覆盖多种中国方言。
03 核心功能:语音合成的三大突破
Qwen3-TTS的三大核心功能构成了其在语音合成领域的竞争优势。
音色创造功能允许用户通过自然语言描述生成全新的声音形象。例如,输入“温暖磁性的中年男声,带点慵懒感”,模型便能生成完全符合描述的独特音色。这一功能打破了传统TTS技术依赖预设音色库的限制。
音色克隆功能实现了仅需3秒目标音频即可高精度复刻原始音色的能力。克隆后的音色可自动迁移至模型支持的10种语言中,实现跨语言语音合成。
智能语音控制功能使模型能够理解自然语言指令并调整输出语音的多维声学属性。用户可通过指令灵活控制语音的情感、节奏、音调和风格,实现“所想即所听”的拟人化表达。
04 性能表现:全面领先的客观数据
官方评测显示,Qwen3-TTS在多项指标上达到了行业领先水平。
在音色创造任务上,Qwen3-TTS-VoiceDesign在InstructTTS-Eval评测中,指令遵循能力和生成表现力整体超越了MiniMax-Voice-Design闭源模型,并大幅领先其他开源模型。
音色克隆任务上,Qwen3-TTS-VoiceClone在多个测试集上超越MiniMax和SeedTTS等竞争对手。跨语种音色克隆能力上,该模型也达到了当前最佳水平。
在长文本生成和鲁棒性方面,模型展现出卓越性能。一次性合成10分钟语音时,其中英文词错率分别仅为2.36%和2.81%,并对输入文本中的噪声(如错别字)有很强的鲁棒性。
在感知语音质量评估(PESQ)中,Qwen-TTS-Tokenizer在宽带和窄带上分别取得了3.21和3.68的分数,大幅领先同类tokenizer。在短时客观可懂度(STOI)以及UTMOS上,Qwen-TTS-Tokenizer取得了0.96和4.16的分数,展现出卓越的还原质量。在说话人相似度上,Qwen-TTS-Tokenizer取了0.95的分数,显著超越对比模型,表明其近乎无损的说话人信息保留能力。
05 多语言与方言:全球化与本土化并重
Qwen3-TTS的语言支持能力十分全面。模型覆盖了10种主流语言,包括中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语和意大利语。
方言支持是Qwen3-TTS的一大亮点。模型覆盖了9种中国方言,包括闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话等。
这种广泛的方言支持能力,为地方文化内容的数字化传播提供了全新可能。在某地方短剧制作测试中,AI生成的四川话配音让观众误判为真人演员,方言识别准确率超过92%。
06 快速上手:简单易用的开发体验
Qwen3-TTS提供了简单易用的Python包,使开发者能够快速上手。首先创建并激活Python环境,然后安装qwen-tts包:
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
pip install -U qwen-tts
音色克隆示例代码展示了如何使用模型:
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
model = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-Base",
device_map="cuda:0",
torch_dtype=torch.bfloat16,
)
wavs, sr = model.generate_voice_clone(
text="今天天气真好,我们出去散步吧。",
ref_audio="path/to/your/ref_audio.wav",
ref_text="这是参考音频对应的文本内容。",
language="Chinese"
)
sf.write("克隆输出.wav", wavs[0], sr)
07 应用场景:从内容创作到实时交互
Qwen3-TTS的开源为多个行业带来了创新可能。
在专业内容制作领域,传统有声书制作需要配音演员录制数十小时,现在可以先用音色克隆功能复制主播音色,再用音色创造功能微调情绪,单日内就能完成整本书的配音。
在影视制作领域,演员档期冲突时,制作方可以使用音色克隆功能保留其音色特征,再用音色创造功能调整台词情绪,实现“数字替身”配音。
智能车载系统是另一个重要应用场景。传统车载语音系统常常无法识别带口音的普通话,而Qwen3-TTS的方言支持能力让“塑料普通话”成为历史。
教育领域的创新应用同样令人瞩目。阿里云同步发布的“一键朗读”插件,允许教师上传PPT后自动生成带方言的讲解音频。