一、Prefill与Decode:LLM推理的二元架构 大语言模型(LLM)的推理过程可分解为两个逻辑独立的阶段:Prefill(预填充)与Decode(解码)。这两个阶段虽共享同一套神经网络权重,但对硬件资源的诉求呈现显著差异,……