一、Attention机制优化:从计算效率到长序列处理 当前主流大模型在处理超长序列时,传统Attention的O(n²)复杂度成为性能瓶颈。近期行业常见技术方案提出三种优化路径: 稀疏化Attention通过动态选择关键token参……