一、传统Transformer的上下文瓶颈 自2017年Transformer架构提出以来,其自注意力机制(Self-Attention)凭借并行计算能力和全局信息捕捉特性,迅速成为自然语言处理(NLP)领域的基石。然而,标准Transformer的注……