一、核心技术架构:创新与优化的双重突破 1.1 混合注意力机制的分层设计 DeepSeek采用动态稀疏注意力(Dynamic Sparse Attention)与全局注意力(Global Attention)的混合架构,通过门控机制(Gating Mechanism)……