Skip to content

Qwen3-TTS 使用教程

通义千问语音合成系统,支持语音克隆、语音设计、预设音色三种模式,覆盖 10 种语言。

快速开始

实例启动后,在平台页面右侧找到 自定义服务,即可看到三个入口:

服务说明
CustomVoice使用 9 种内置音色,支持指令控制语气、情绪和语速
VoiceDesign用自然语言描述你想要的声音,AI 自动生成
VoiceClone上传一段音频,克隆说话人声音,生成任意新内容

点击对应按钮即可打开 Web 界面。


一、CustomVoice — 预设音色

使用 9 种内置音色,支持自然语言指令控制语气、情绪和语速。

操作步骤

  1. 点击 CustomVoice 按钮,打开 Web 界面
  2. 选择语言(或保持 Auto 自动适配)
  3. 选择音色(见下方音色表)
  4. 输入合成文本
  5. (可选)输入指令,如「用热情友好的语气说」
  6. 点击 Generate(生成),右侧即可播放/下载音频

9 种音色

音色描述母语适合场景
Vivian明亮、略带锋芒的年轻女声中文播报、客服
Serena温暖、温柔的年轻女声中文有声书、情感表达
Uncle_Fu低沉醇厚的成熟男声中文旁白、纪录片
Dylan清爽自然的北京青年男声中文(北京腔)对话、日常
Eric略带沙哑的活泼成都男声中文(四川话)方言场景
Ryan富有节奏感的动态男声英语英文播客、演讲
Aiden中音清晰的阳光美式男声英语教程、旁白
Ono_Anna轻盈灵动的俏皮日语女声日语日语场景
Sohee情感丰富的温暖韩语女声韩语韩语场景

指令示例

用热情友好的语气说
用特别愤怒的语气说
语速快一点,显得很着急
用温柔舒缓的语气,像在哄小孩
用悲伤低沉的声音

二、VoiceDesign — 语音设计

用自然语言描述你想要的声音,AI 自动生成符合描述的语音。无需预设音色,自由创造。

操作步骤

  1. 点击 VoiceDesign 按钮
  2. 选择语言
  3. 输入合成文本
  4. 输入声音描述(描述越详细,效果越准确)
  5. 点击 Generate(生成)

声音描述示例

# 角色扮演
体现撒娇稚嫩的萝莉女声,音调偏高且起伏明显,营造出黏人、做作又刻意卖萌的听觉效果。

# 年龄 + 性别 + 语气
一位稳重的中年男性教授,语速偏慢,偶尔清一下嗓子,带一点江浙口音。

# 情绪驱动
用难以置信的语气说,但声音中开始流露出一丝恐慌。

# 英文场景
Male, 17 years old, tenor range, gaining confidence — deeper breath support now, though vowels still tighten when nervous.

三、VoiceClone — 语音克隆

上传一段参考音频,克隆说话人的声音,生成任意新内容。

克隆并合成

  1. 点击 VoiceClone 按钮
  2. 上传参考音频(3 秒以上,WAV/MP3 等格式)
  3. 输入参考音频文本(音频中说的话,一个字不差)
  4. 输入待合成文本(想用克隆声音说的话)
  5. 选择语言
  6. 点击 Generate(生成)

仅用说话人向量

勾选「Use x-vector only」后无需提供参考文本,但克隆效果会下降。适用于不知道参考音频具体说了什么的情况。

保存/加载音色

切换到 Save / Load Voice 标签页:

  • 保存:上传参考音频 + 文本 → 点击 Save Voice File → 下载 .pt 音色文件
  • 加载:上传已保存的 .pt 文件 + 输入新文本 → 点击 Generate 生成

💡 一次保存后可反复加载使用,无需重复上传参考音频。


四、组合玩法:VoiceDesign → VoiceClone

先设计声音再批量复用的高级流程:

  1. VoiceDesign 里用文字描述生成一段满意的参考音频
  2. 下载这段音频,到 VoiceClone 里上传
  3. Save Voice File 保存为音色文件(.pt
  4. 后续只需加载音色文件,输入任意文本即可批量生成

适用场景:需要大量台词的角色配音、有声书、游戏 NPC 对话。


五、常用技巧

指令写法参考

目的指令示例
控制情绪用开心/愤怒/悲伤/恐惧的语气说
控制语速语速快一点 / 慢慢说、从容不迫
控制音量大声喊出来 / 轻声细语地说
角色扮演模仿老年人的声音 / 像小孩子一样说话

语言适配

语言选 Auto 时,模型会根据输入文本自动识别语言。如果明确知道目标语言,建议手动选择以获得最佳质量。

支持的语言

中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语


六、技术规格

项目参数
模型架构离散多码本语言模型(非 DiT)
音频采样率24000 Hz
流式首包延迟最低 97ms
GPUNVIDIA RTX 3090 24GB
开源协议Apache 2.0
项目地址https://github.com/QwenLM/Qwen3-TTS