一、Transformer跨模态迁移的必然性 传统计算机视觉领域长期依赖卷积神经网络(CNN)架构,其局部感受野与平移不变性的设计在图像分类、目标检测等任务中表现优异。然而随着模型规模的扩大,CNN的归纳偏置逐渐成为……