一、注意力机制演进:从MHA到GQA再到MLA 1.1 多头注意力(MHA)的局限性 传统Transformer架构中的多头注意力机制(MHA)通过并行计算多个注意力头捕捉不同维度的语义特征。每个头独立维护键(Key)和值(Value)矩……