一、技术选型与架构设计 1.1 模型特性与部署需求 DeepSeek-7B-chat 作为70亿参数的轻量级对话模型,其核心优势在于: 低延迟推理:通过量化压缩(如4/8bit)可将显存占用降至12GB以下 上下文窗口:支持最长32K to……