一、技术融合背景:从单模态到多模态的跨越 传统图像识别主要依赖CNN(卷积神经网络)对视觉特征的提取,通过卷积层、池化层和全连接层构建端到端的识别模型。然而,单一视觉模态在处理语义关联性弱、背景干扰强的……