一、多模态视频生成技术核心原理 多模态数字人视频生成技术通过融合文本、图像、音频等多维度输入,实现数字人动态视频的自动化创作。其技术架构可分为三个核心层: 输入层:支持文本描述、静态图像序列、语音指……