在语音合成(Text-to-Speech, TTS)技术领域,自回归(Autoregressive, AR)模型与非自回归(Non-Autoregressive, Non-AR)模型的竞争从未停歇。前者以卓越的语音质量和零样本(Zero-Shot)能力著称,却因难以精确……