ONNX Runtime端侧大模型推理实战:API全流程指南 随着端侧AI设备算力的提升,将大语言模型(LLM)部署到手机、IoT设备等边缘终端成为可能。ONNX Runtime作为跨平台推理引擎,凭借其轻量级、高性能的特性,成为端侧……