一、背景与问题提出 随着多模态大模型(如Qwen3-VL-30B)在视觉-语言任务中的广泛应用,其推理效率成为制约实际部署的关键因素。传统注意力机制(如标准Scaled Dot-Product Attention)因计算复杂度随序列长度平方……