一、技术背景:模型蒸馏的必要性 在AI模型规模指数级增长的背景下,大语言模型(LLM)的参数量已突破万亿级别(如GPT-4的1.8万亿参数),但高算力需求与低延迟响应的矛盾日益突出。传统模型压缩技术(如剪枝、量化……