引言 Transformer架构自2017年提出以来,已成为自然语言处理(NLP)、计算机视觉(CV)等领域的主流技术方案。其核心设计突破了传统循环神经网络(RNN)的序列依赖限制,通过自注意力机制(Self-Attention)和并行……