Qwen3-TTS 使用教程
通义千问语音合成系统,支持语音克隆、语音设计、预设音色三种模式,覆盖 10 种语言。
快速开始
实例启动后,在平台页面右侧找到 自定义服务,即可看到三个入口:
| 服务 | 说明 |
|---|---|
| CustomVoice | 使用 9 种内置音色,支持指令控制语气、情绪和语速 |
| VoiceDesign | 用自然语言描述你想要的声音,AI 自动生成 |
| VoiceClone | 上传一段音频,克隆说话人声音,生成任意新内容 |
点击对应按钮即可打开 Web 界面。
一、CustomVoice — 预设音色
使用 9 种内置音色,支持自然语言指令控制语气、情绪和语速。
操作步骤
- 点击 CustomVoice 按钮,打开 Web 界面
- 选择语言(或保持
Auto自动适配) - 选择音色(见下方音色表)
- 输入合成文本
- (可选)输入指令,如「用热情友好的语气说」
- 点击 Generate(生成),右侧即可播放/下载音频
9 种音色
| 音色 | 描述 | 母语 | 适合场景 |
|---|---|---|---|
| Vivian | 明亮、略带锋芒的年轻女声 | 中文 | 播报、客服 |
| Serena | 温暖、温柔的年轻女声 | 中文 | 有声书、情感表达 |
| Uncle_Fu | 低沉醇厚的成熟男声 | 中文 | 旁白、纪录片 |
| Dylan | 清爽自然的北京青年男声 | 中文(北京腔) | 对话、日常 |
| Eric | 略带沙哑的活泼成都男声 | 中文(四川话) | 方言场景 |
| Ryan | 富有节奏感的动态男声 | 英语 | 英文播客、演讲 |
| Aiden | 中音清晰的阳光美式男声 | 英语 | 教程、旁白 |
| Ono_Anna | 轻盈灵动的俏皮日语女声 | 日语 | 日语场景 |
| Sohee | 情感丰富的温暖韩语女声 | 韩语 | 韩语场景 |
指令示例
用热情友好的语气说
用特别愤怒的语气说
语速快一点,显得很着急
用温柔舒缓的语气,像在哄小孩
用悲伤低沉的声音二、VoiceDesign — 语音设计
用自然语言描述你想要的声音,AI 自动生成符合描述的语音。无需预设音色,自由创造。
操作步骤
- 点击 VoiceDesign 按钮
- 选择语言
- 输入合成文本
- 输入声音描述(描述越详细,效果越准确)
- 点击 Generate(生成)
声音描述示例
# 角色扮演
体现撒娇稚嫩的萝莉女声,音调偏高且起伏明显,营造出黏人、做作又刻意卖萌的听觉效果。
# 年龄 + 性别 + 语气
一位稳重的中年男性教授,语速偏慢,偶尔清一下嗓子,带一点江浙口音。
# 情绪驱动
用难以置信的语气说,但声音中开始流露出一丝恐慌。
# 英文场景
Male, 17 years old, tenor range, gaining confidence — deeper breath support now, though vowels still tighten when nervous.三、VoiceClone — 语音克隆
上传一段参考音频,克隆说话人的声音,生成任意新内容。
克隆并合成
- 点击 VoiceClone 按钮
- 上传参考音频(3 秒以上,WAV/MP3 等格式)
- 输入参考音频文本(音频中说的话,一个字不差)
- 输入待合成文本(想用克隆声音说的话)
- 选择语言
- 点击 Generate(生成)
仅用说话人向量
勾选「Use x-vector only」后无需提供参考文本,但克隆效果会下降。适用于不知道参考音频具体说了什么的情况。
保存/加载音色
切换到 Save / Load Voice 标签页:
- 保存:上传参考音频 + 文本 → 点击 Save Voice File → 下载
.pt音色文件 - 加载:上传已保存的
.pt文件 + 输入新文本 → 点击 Generate 生成
💡 一次保存后可反复加载使用,无需重复上传参考音频。
四、组合玩法:VoiceDesign → VoiceClone
先设计声音再批量复用的高级流程:
- 在 VoiceDesign 里用文字描述生成一段满意的参考音频
- 下载这段音频,到 VoiceClone 里上传
- 用 Save Voice File 保存为音色文件(
.pt) - 后续只需加载音色文件,输入任意文本即可批量生成
适用场景:需要大量台词的角色配音、有声书、游戏 NPC 对话。
五、常用技巧
指令写法参考
| 目的 | 指令示例 |
|---|---|
| 控制情绪 | 用开心/愤怒/悲伤/恐惧的语气说 |
| 控制语速 | 语速快一点 / 慢慢说、从容不迫 |
| 控制音量 | 大声喊出来 / 轻声细语地说 |
| 角色扮演 | 模仿老年人的声音 / 像小孩子一样说话 |
语言适配
语言选 Auto 时,模型会根据输入文本自动识别语言。如果明确知道目标语言,建议手动选择以获得最佳质量。
支持的语言
中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语
六、技术规格
| 项目 | 参数 |
|---|---|
| 模型架构 | 离散多码本语言模型(非 DiT) |
| 音频采样率 | 24000 Hz |
| 流式首包延迟 | 最低 97ms |
| GPU | NVIDIA RTX 3090 24GB |
| 开源协议 | Apache 2.0 |
| 项目地址 | https://github.com/QwenLM/Qwen3-TTS |
