一、多模态Transformer架构的演进背景 传统Transformer架构源于自然语言处理(NLP),其自注意力机制(Self-Attention)通过动态计算序列中元素间的关联性,实现了对长距离依赖的高效建模。随着计算机视觉(CV)领……