一、技术背景:大模型长文本处理的”记忆诅咒” 当前主流大模型在处理长文本时普遍面临两大挑战:其一,传统Transformer架构的注意力机制复杂度随序列长度呈平方级增长,导致处理百万级文档时显存需求激增;其二,长……