一、长序列视频生成的技术困境 在视频生成任务中,模型需要基于历史帧序列预测下一帧内容。传统Transformer架构采用”T帧历史帧输入→帧分块→拼接为token序列→自注意力计算→生成下一帧”的流水线,但当处理超过30帧的……