一、技术背景与问题提出 视觉与语义的联合嵌入是计算机视觉与自然语言处理交叉领域的核心问题,旨在将图像和文本映射到同一语义空间,实现跨模态检索、图像标注、视觉问答等应用。传统方法多采用单模态特征提取后……