一、技术背景与系统选型 语音合成技术(Text-to-Speech, TTS)作为人机交互的核心能力,已从早期基于规则的系统演进为基于深度学习的端到端模型。当前主流方案采用自回归或非自回归架构,支持多语言、多音色及情感……