Back to browse
Qwen3-Omni 语音合成流程
你是一名专业的技术架构插画师,请根据以下描述,绘制一张展示 **Qwen3-Omni 语音合成流程** 的流程图。 ## 整体要求 - 用途:技术分享 PPT 中的原理说明页。 - 风格:简洁、现代的 **扁平化 2D 流程图**(非写实插画、非3D)。 - 方向:横向 16:9 或接近比例。 - 文字语言:**简体…
Added May 19, 20260 views0 copies
Prompt
你是一名专业的技术架构插画师,请根据以下描述,绘制一张展示 **Qwen3-Omni 语音合成流程** 的流程图。
## 整体要求
- 用途:技术分享 PPT 中的原理说明页。
- 风格:简洁、现代的 **扁平化 2D 流程图**(非写实插画、非3D)。
- 方向:横向 16:9 或接近比例。
- 文字语言:**简体中文 + 英文缩写**,与下方给出的文字保持一致。
- 不需要标题,由图中模块与标签自行说明含义。
- **画布背景为纯白色**(#FFFFFF),不要使用渐变或大面积色块铺底。
## 配色要求
请只使用下列三种主色作为模块和视觉元素的主色调(可适当做深浅变化):
- `#FCF9E5` —— 可用于 Talker 输出的基础 Token 小方块
- `#ECF8F0` —— 可用于 MTP 输出的细节 Token 小方块
- `#E7F1FE` —— 可用于核心模块主体(如 Talker 主干网络、MTP 模块、Code2Wav 解码器)
线条、文字使用深灰或黑色,以保证可读性。
## 布局结构(从左到右)
请将整体流程绘制成从左到右的三段式流水线结构,对应下面这条 ASCII 流程:
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Talker │ ─▶│ MTP │ ─▶│ Code2Wav │
│ 主干网络 │ │ 补全模块 │ │ 解码器 │
└─────────────┘ └─────────────┘ └─────────────┘
### 1. 左侧模块:Talker 主干网络
- 画一个左侧的扁平圆角矩形模块(主体颜色建议使用 `#E7F1FE`):
- 模块标题(两行):
- 第一行:`Talker`
- 第二行:`主干网络`
- 在 **Talker 模块右侧靠近箭头的位置**,绘制一行水平排列的小方块,代表基础音频 Token:
- 这一行小方块数量可为 8–12 个左右,大小一致,排布整齐。
- 小方块填充颜色建议使用 `#FCF9E5`。
- 在这一行小方块下方,用较小字号标注说明文字:
- `基础 Token(内容 + 韵律骨架)`
- 同时在 Talker 模块下方或内部底部,可以补充一行文字说明:
- `输出:基础 Token(内容 + 韵律骨架)`
### 2. 中间模块:MTP 补全模块
- 在 Talker 右侧,用实心箭头连接到第二个模块。
- 第二个模块同样使用圆角矩形(主体颜色建议使用 `#E7F1FE`):
- 模块标题(两行):
- 第一行:`MTP`
- 第二行:`补全模块`
- 在 **MTP 模块右侧**,基于 Talker 输出的一行小方块,绘制“从一行扩展为多行”的视觉效果:
- 第一行:直接延续/对齐自 Talker 的那一行基础 Token 小方块(颜色保持 `#FCF9E5`),表示被 MTP 继续利用的基础层。
- 在这行基础小方块的 **上方**,再叠加 **三行** 水平排列的小方块,形成总共四层叠放的效果:
- 上面三行的小方块颜色建议使用 `#ECF8F0`,表示 MTP 生成的细节音频 Token。
- 各行之间留出少量垂直间距,使“叠加”的视觉层次清晰。
- 整体看上去像是“在原有一行基础 Token 上方,堆叠出了三行新的细节 Token”。
- 在这组多行小方块的下方,用小字号标注说明:
- `细节 Token(音质 + 音色细节)`
- 在 MTP 模块下方或内部底部,可补充文字:
- `输出:细节 Token(音质 + 音色细节)`
### 3. 右侧模块:Code2Wav 解码器
- 用箭头从 MTP 模块指向第三个模块。
- 第三个模块为圆角矩形(主体颜色建议使用 `#E7F1FE`):
- 模块标题(两行):
- 第一行:`Code2Wav`
- 第二行:`解码器`
- 在 **Code2Wav 模块右侧**,画出一段清晰的 **音频波形图案** 作为最终输出:
- 波形颜色可以使用较深一些的蓝绿色系,与整体配色协调。
- 在波形下方用小字标注说明:
- `输出:音频波形(可播放音频)`
## 箭头与连接关系
- 使用简洁、统一风格的实心箭头,从左到右依次连接:
- `Talker 主干网络` → `MTP 补全模块` → `Code2Wav 解码器` → `音频波形`
- 箭头颜色可以使用深灰色或略深的蓝色,粗细统一。
## 细节与装饰
- 画布整体背景为纯白色(#FFFFFF),不使用背景渐变。
- 可以在局部适度加一点淡色描边或轻微阴影增强模块层次,但保持整体扁平化。
- 整体需让读者一眼能够理解:
- 左:Talker 生成一行基础音频 Token(内容 + 韵律骨架)
- 中:MTP 在这一行基础 Token 上方叠加三行细节 Token(音质 + 音色细节)
- 右:Code2Wav 将多层 Token 解码为最终的可播放音频波形
请严格按照上述模块名称、方块层次结构、中文说明和颜色要求进行绘制。Replace text in [BRACKETS] with your own values before pasting.