一、多模态表示:构建跨模态语义空间 多模态表示的核心在于将文本、图像、音频等异构数据映射到统一的语义空间,实现跨模态信息的语义对齐。当前主流方案包括联合表示学习与分离表示对齐两类: 联合表示学习:通……