一、背景与核心问题 生成式语音合成技术(如基于GPT架构与SoVITS声学模型的方案)通过深度学习实现文本到语音的高效转换,但其输出质量常因数据偏差、模型结构或声学特征处理不当而参差不齐。如何客观、量化地评估……