一、技术突破:百万Token处理的架构革新 传统Transformer架构受限于自注意力机制的计算复杂度,通常仅支持4K-32K Token的上下文窗口。某开源团队提出的Dual Chunk Attention(DCA)机制通过分块并行计算与跨块注意……