一、背景:TensorRT版本演进与MHA/FMHA内核的变革 自TensorRT 8.6版本起,核心架构发生了重要调整:原本需要手动加载的MHA(Multi-Head Attention)和FMHA(Fused Multi-Head Attention)插件被内置到引擎中。这一……