一、背景与挑战:跨模态特征对齐的必要性 在多模态任务(如图像描述生成、视觉问答)中,ViT负责提取图像的视觉特征,Text Transformer负责处理文本的语义特征。然而,两者的特征空间存在天然差异: 模态差异:视……