DeepSeek蒸馏:解锁大模型轻量化的技术密码 一、技术演进:从参数膨胀到知识蒸馏的范式革命 大模型参数规模突破千亿级后,推理成本与部署难度呈指数级增长。以GPT-3为例,其1750亿参数需要至少350GB显存进行单卡推……