一、技术背景与架构选型 在AI应用开发领域,大模型本地化部署始终面临两大核心挑战:硬件资源限制与推理性能平衡。传统方案多采用单设备全栈部署,但80亿参数量级模型对显存和内存的双重需求,使得普通消费级设备……