一、从”说话”到”表达”:多模态语义对齐的技术革命 传统数字人直播系统的技术架构存在显著局限性。多数方案采用”文本生成-多模态对齐”的分离式设计:首先通过大语言模型生成直播文案,再通过语音合成、唇形驱动、动……