一、引言:大模型分布式部署的必要性 DeepSeek作为新一代千亿参数级大模型,其单卡显存需求远超消费级GPU容量。以NVIDIA A100为例,FP16精度下模型权重即占约200GB显存,叠加激活值、优化器状态后,单机单卡训练几……