一、系统架构设计:Transformer与CNN的协同机制 语音情感识别(SER)的核心挑战在于从时频特征中提取情感相关的时空模式。Transformer的自注意力机制擅长捕捉长程依赖关系,而CNN的局部感受野能有效提取频谱图的细粒……