一、传统级联式架构的局限性:从文本到口播的”拼凑式”困境 在AI数字人技术演进中,级联式架构曾是主流解决方案。其核心流程可分为三个阶段:文本通过TTS系统生成音频波形,音频驱动面部生成模型输出视频帧,最终通……