一、技术背景:Transformer的”轻量化革命” 自2017年Transformer架构问世以来,其自注意力机制(Self-Attention)与多头并行结构已成为NLP领域的基石。但传统模型参数量大、计算复杂度高的问题日益凸显——以BERT-bas……