一、Transformer回归:技术本质的再发现 自2017年《Attention is All You Need》论文提出Transformer架构以来,其自注意力机制(Self-Attention)和并行计算能力迅速成为自然语言处理(NLP)领域的基石。然而,在2……