一、技术背景与核心挑战 传统语音合成(TTS)技术依赖声学模型与声码器的分离设计,存在两大痛点:其一,文本到声学特征的转换与声学特征到语音波形的生成需串行处理,导致端到端延迟较高;其二,模型参数量与生成……