一、测试背景与技术定位 在AI模型部署领域,显存占用始终是制约模型落地效率的核心因素。传统8B参数量级模型(如Llama-2-8B)在FP16精度下通常需要16GB以上显存,而DeepSeek-R1-Distill-Llama-8B通过架构优化与量……