Qwen3-TTS 使用教程

通义千问语音合成系统，支持语音克隆、语音设计、预设音色三种模式，覆盖 10 种语言。

快速开始

实例启动后，在平台页面右侧找到 自定义服务，即可看到三个入口：

服务	说明
CustomVoice	使用 9 种内置音色，支持指令控制语气、情绪和语速
VoiceDesign	用自然语言描述你想要的声音，AI 自动生成
VoiceClone	上传一段音频，克隆说话人声音，生成任意新内容

点击对应按钮即可打开 Web 界面。

一、CustomVoice — 预设音色

使用 9 种内置音色，支持自然语言指令控制语气、情绪和语速。

操作步骤

点击 CustomVoice 按钮，打开 Web 界面
选择语言（或保持 Auto 自动适配）
选择音色（见下方音色表）
输入合成文本
（可选）输入指令，如「用热情友好的语气说」
点击 Generate（生成），右侧即可播放/下载音频

9 种音色

音色	描述	母语	适合场景
Vivian	明亮、略带锋芒的年轻女声	中文	播报、客服
Serena	温暖、温柔的年轻女声	中文	有声书、情感表达
Uncle_Fu	低沉醇厚的成熟男声	中文	旁白、纪录片
Dylan	清爽自然的北京青年男声	中文(北京腔)	对话、日常
Eric	略带沙哑的活泼成都男声	中文(四川话)	方言场景
Ryan	富有节奏感的动态男声	英语	英文播客、演讲
Aiden	中音清晰的阳光美式男声	英语	教程、旁白
Ono_Anna	轻盈灵动的俏皮日语女声	日语	日语场景
Sohee	情感丰富的温暖韩语女声	韩语	韩语场景

指令示例

用热情友好的语气说
用特别愤怒的语气说
语速快一点，显得很着急
用温柔舒缓的语气，像在哄小孩
用悲伤低沉的声音

二、VoiceDesign — 语音设计

用自然语言描述你想要的声音，AI 自动生成符合描述的语音。无需预设音色，自由创造。

操作步骤

点击 VoiceDesign 按钮
选择语言
输入合成文本
输入声音描述（描述越详细，效果越准确）
点击 Generate（生成）

声音描述示例

# 角色扮演
体现撒娇稚嫩的萝莉女声，音调偏高且起伏明显，营造出黏人、做作又刻意卖萌的听觉效果。

# 年龄 + 性别 + 语气
一位稳重的中年男性教授，语速偏慢，偶尔清一下嗓子，带一点江浙口音。

# 情绪驱动
用难以置信的语气说，但声音中开始流露出一丝恐慌。

# 英文场景
Male, 17 years old, tenor range, gaining confidence — deeper breath support now, though vowels still tighten when nervous.

三、VoiceClone — 语音克隆

上传一段参考音频，克隆说话人的声音，生成任意新内容。

克隆并合成

点击 VoiceClone 按钮
上传参考音频（3 秒以上，WAV/MP3 等格式）
输入参考音频文本（音频中说的话，一个字不差）
输入待合成文本（想用克隆声音说的话）
选择语言
点击 Generate（生成）

仅用说话人向量

勾选「Use x-vector only」后无需提供参考文本，但克隆效果会下降。适用于不知道参考音频具体说了什么的情况。

保存/加载音色

切换到 Save / Load Voice 标签页：

保存：上传参考音频 + 文本 → 点击 Save Voice File → 下载 .pt 音色文件
加载：上传已保存的 .pt 文件 + 输入新文本 → 点击 Generate 生成

💡 一次保存后可反复加载使用，无需重复上传参考音频。

四、组合玩法：VoiceDesign → VoiceClone

先设计声音再批量复用的高级流程：

在 VoiceDesign 里用文字描述生成一段满意的参考音频
下载这段音频，到 VoiceClone 里上传
用 Save Voice File 保存为音色文件（.pt）
后续只需加载音色文件，输入任意文本即可批量生成

适用场景：需要大量台词的角色配音、有声书、游戏 NPC 对话。

五、常用技巧

指令写法参考

目的	指令示例
控制情绪	用开心/愤怒/悲伤/恐惧的语气说
控制语速	语速快一点 / 慢慢说、从容不迫
控制音量	大声喊出来 / 轻声细语地说
角色扮演	模仿老年人的声音 / 像小孩子一样说话

语言适配

语言选 Auto 时，模型会根据输入文本自动识别语言。如果明确知道目标语言，建议手动选择以获得最佳质量。

支持的语言

中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语

六、技术规格

项目	参数
模型架构	离散多码本语言模型（非 DiT）
音频采样率	24000 Hz
流式首包延迟	最低 97ms
GPU	NVIDIA RTX 3090 24GB
开源协议	Apache 2.0
项目地址	https://github.com/QwenLM/Qwen3-TTS

Qwen3-TTS 使用教程 ​

快速开始 ​

一、CustomVoice — 预设音色 ​

操作步骤 ​

9 种音色 ​

指令示例 ​

二、VoiceDesign — 语音设计 ​

操作步骤 ​

声音描述示例 ​

三、VoiceClone — 语音克隆 ​

克隆并合成 ​

仅用说话人向量 ​

保存/加载音色 ​

四、组合玩法：VoiceDesign → VoiceClone ​

五、常用技巧 ​

指令写法参考 ​

语言适配 ​

支持的语言 ​

六、技术规格 ​

Qwen3-TTS 使用教程

快速开始

一、CustomVoice — 预设音色

操作步骤

9 种音色

指令示例

二、VoiceDesign — 语音设计

操作步骤

声音描述示例

三、VoiceClone — 语音克隆

克隆并合成

仅用说话人向量

保存/加载音色

四、组合玩法：VoiceDesign → VoiceClone

五、常用技巧

指令写法参考

语言适配

支持的语言

六、技术规格