从MHA到Flash/Page Attention:Attention机制演进与内存优化实践 Attention机制作为Transformer架构的核心组件,其内存占用与计算效率直接影响模型在大规模场景下的落地能力。从经典的多头注意力(Multi-Head Atte……