一、长文本处理的挑战与稀疏注意力的必要性 在自然语言处理任务中,长文本(如学术论文、法律文书、新闻长报)的处理始终面临计算效率与模型性能的双重挑战。传统Transformer模型采用全注意力机制,即每个token需……