跨模态特征对齐：Visual Transformer与Text Transformer特征空间融合实践 - 云主机网

最新文章

跨模态特征对齐：Visual Transformer与Text Transformer特征空间融合实践

一、背景与挑战：跨模态特征对齐的必要性在多模态任务（如图像描述生成、视觉问答）中，ViT负责提取图像的视觉特征，Text Transformer负责处理文本的语义特征。然而，两者的特征空间存在天然差异：模态差异：视……

2026年1月8日互联网