引言 情绪识别作为人机交互领域的核心技术,正从单一模态向多模态融合方向发展。传统方法多依赖语音声学特征或面部关键点独立分析,存在特征表达片面、上下文关联不足等问题。本文提出的基于音频Transformer与动作……