一、模型架构创新:从Transformer到混合结构的演进 1. 《Hybrid Attention Mechanisms for Long-Context Modeling》该论文提出一种结合局部滑动窗口注意力与全局稀疏注意力的混合架构,解决了传统Transformer在处……