一、FlashAttention技术背景与挑战 在大模型训练与推理过程中,注意力机制(Attention)作为核心组件,其计算效率直接影响整体性能。传统注意力算法存在两大痛点: 内存访问瓶颈:Q(Query)、K(Key)、V(Value……