大模型推理张量并行的4种模式解析 在大模型推理场景中,张量并行(Tensor Parallelism)通过将模型参数拆分到多个设备上并行计算,成为突破单机内存瓶颈、提升吞吐量的关键技术。本文将系统梳理张量并行的4种典型……