一、变长思维链:打破传统蒸馏模型的固定范式 传统蒸馏模型(如DeepSeek)通常采用固定长度的思维链(Chain-of-Thought, CoT)进行知识传递,即通过预定义的步骤数量完成推理。这种模式在简单任务中表现稳定,但在……