一、多模态生成的技术背景与DiT的提出 多模态生成是当前人工智能领域的核心方向之一,旨在通过单一模型处理文本、图像、视频、音频等多种模态数据,实现跨模态内容生成。传统方法多采用分阶段架构(如GAN+Transfor……