一、为什么需要蒸馏技术?——大模型的“甜蜜负担” 近年来,深度学习模型参数规模呈现指数级增长。以GPT-3为例,其1750亿参数带来的强大语言能力背后,是单次推理需消耗数百GB显存的硬件门槛。这种”大而全”的模型在学……