引言 在自然语言处理(NLP)、计算机视觉(CV)等序列建模任务中,注意力机制已成为提升模型性能的关键技术。传统注意力机制(如自注意力)通过计算序列中各元素间的相关性,捕捉长距离依赖关系,但存在计算复杂度……