DeepSeek-R1全版本解析:从1.5B到671B的模型差异与蒸馏技术实践