DeiT:使用Attention蒸馏Transformer 一、背景与核心挑战 在视觉Transformer(ViT)打破CNN垄断后,其数据依赖性成为关键瓶颈。ViT需要百万级标注数据才能达到SOTA性能,而传统CNN(如ResNet)在千分位数据量下即……