一、PD分离架构:破解生成式AI的性能困局 在生成式AI的推理过程中,Prefill(预填充)与Decode(解码)两个阶段存在本质差异:Prefill阶段需要将用户输入的prompt转换为Q(Query)、K(Key)、V(Value)矩阵并生……