一、动态注意力权重分配机制 Deepseek算法的核心创新之一在于其动态注意力权重分配机制。传统Transformer架构中,注意力权重通过Softmax函数全局计算,导致计算复杂度随序列长度平方增长。Deepseek通过引入门控稀……