一、模型量化与性能优化 1.1 量化策略选择 DeepSeek-R1蒸馏模型支持FP16半精度与INT8量化两种部署模式。FP16在AWS p4d.24xlarge实例上可实现1200 samples/sec的吞吐量,但显存占用增加40%。INT8量化通过TensorRT的……