一、DeepSeek R1模型的核心技术突破 1.1 动态注意力融合机制(DAFM) 传统Transformer架构的静态注意力权重分配在处理长序列时面临计算冗余问题。R1模型提出的DAFM通过引入时序敏感的门控单元,实现注意力权重的动……