技术背景与架构创新 传统Transformer架构受限于自注意力机制的平方复杂度,通常仅能处理4K-32K Token的上下文。2025年1月推出的140亿参数大模型通过Dual Chunk Attention(双分块注意力)机制突破这一瓶颈,将上下……