Jetson Nano高效部署指南：TensorRT加速yolov3-tiny实践

一、技术背景与需求分析

1.1 Jetson Nano的边缘计算定位

作为NVIDIA推出的嵌入式AI开发平台，Jetson Nano搭载128核Maxwell GPU和4GB LPDDR4内存，专为边缘计算场景设计。其15W低功耗特性与ARM架构处理器组合，使其成为工业检测、智能监控等领域的理想选择。但原始模型在Nano上的推理速度常低于10FPS，难以满足实时性要求。

1.2 yolov3-tiny模型特性

yolov3-tiny作为YOLOv3的轻量化版本，参数量仅870万，模型体积压缩至23.8MB。其特征提取网络采用6层卷积+5层最大池化的简化结构，在保持mAP@0.5约50%精度的同时，推理速度较原版提升3-5倍。但直接部署在Jetson Nano上仍面临延迟问题。

1.3 TensorRT加速原理

TensorRT通过图优化（层融合、精度校准）、内核自动调优（选择最优CUDA内核）、动态张量内存管理等技术，可使模型推理速度提升3-10倍。针对yolov3-tiny的深度可分离卷积结构，TensorRT可特别优化其计算图，减少内存访问次数。

二、环境准备与工具链配置

2.1 系统环境要求

JetPack 4.6或更高版本（包含TensorRT 8.0+）
CUDA 10.2与cuDNN 8.2
Python 3.6+环境
OpenCV 4.5+（用于图像预处理）

建议通过nvidia-docker部署开发环境，确保环境一致性。关键配置命令：

# 检查TensorRT版本
dpkg -l | grep TensorRT
# 验证CUDA可用性
nvcc --version

2.2 模型准备

需准备三种格式的模型文件：

原始PyTorch模型：通过torch.save()保存的.pth文件
ONNX中间格式：使用torch.onnx.export()转换
TensorRT引擎文件：最终优化后的.engine文件

转换过程中需特别注意：

输入尺寸固定为416×416（yolov3-tiny标准输入）
动态批次设置（建议batch=1）
输出层命名规范（需与后处理代码匹配）

三、TensorRT模型转换详细流程

3.1 ONNX模型导出

import torch
from models import Darknet  # 自定义yolov3-tiny模型类
model = Darknet('cfg/yolov3-tiny.cfg')
model.load_weights('yolov3-tiny.weights')
model.eval()
dummy_input = torch.randn(1, 3, 416, 416)
torch.onnx.export(
    model, dummy_input,
    'yolov3-tiny.onnx',
    opset_version=11,
    input_names=['input'],
    output_names=['output'],
    dynamic_axes={'input': {0: 'batch'}, 'output': {0: 'batch'}}
)

关键参数说明：

opset_version=11：确保支持最新算子
dynamic_axes：允许动态批次处理
输出命名需与后续TensorRT解析器一致

3.2 TensorRT引擎构建

使用trtexec工具快速验证：

trtexec --onnx=yolov3-tiny.onnx \
        --saveEngine=yolov3-tiny.engine \
        --fp16  # 启用半精度加速

或通过Python API精细控制：

import tensorrt as trt
logger = trt.Logger(trt.Logger.INFO)
builder = trt.Builder(logger)
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
parser = trt.OnnxParser(network, logger)
with open('yolov3-tiny.onnx', 'rb') as f:
    parser.parse(f.read())
config = builder.create_builder_config()
config.set_flag(trt.BuilderFlag.FP16)  # 半精度优化
profile = builder.create_optimization_profile()
profile.set_shape('input', (1, 3, 416, 416), (4, 3, 416, 416), (8, 3, 416, 416))
config.add_optimization_profile(profile)
engine = builder.build_engine(network, config)
with open('yolov3-tiny.engine', 'wb') as f:
    f.write(engine.serialize())

3.3 精度校准策略

对于半精度转换，需进行INT8校准：

准备500-1000张代表性图像

创建校准器类：

class EntropyCalibrator(trt.IInt8EntropyCalibrator2):
 def __init__(self, input_shapes, cache_file, batch_size=1):
     trt.IInt8EntropyCalibrator2.__init__(self)
     # 实现数据加载与预处理逻辑

在构建配置中启用INT8：

config.set_flag(trt.BuilderFlag.INT8)
config.int8_calibrator = calibrator

四、性能优化与结果验证

4.1 基准测试方法

使用标准测试集（COCO val2017）进行评估，关键指标包括：

推理延迟：从输入到输出的完整时间（含前处理）
帧率（FPS）：1秒内处理的图像数量
精度损失：mAP@0.5与原始模型的差异

测试脚本示例：

import cv2
import time
import pycuda.driver as cuda
# 初始化TensorRT上下文
context = engine.create_execution_context()
d_input = cuda.mem_alloc(1 * 3 * 416 * 416 * 4)  # FP32输入缓冲区
d_output = cuda.mem_alloc(...)  # 根据输出层大小分配
# 性能测试循环
warmup = 10
iterations = 100
total_time = 0
for i in range(warmup + iterations):
    img = cv2.imread('test.jpg')
    img = preprocess(img)  # 归一化、resize等
    start_time = time.time()
    cuda.memcpy_htod_async(d_input, img.ravel(), stream)
    context.execute_async_v2([int(d_input), int(d_output)], stream.handle)
    cuda.memcpy_dtoh_async(output, d_output, stream)
    stream.synchronize()
    if i >= warmup:
        total_time += (time.time() - start_time)
print(f"Average FPS: {iterations / total_time}")

4.2 优化效果对比

优化方案	延迟(ms)	FPS	mAP@0.5	模型大小
原始PyTorch	187	5.3	52.1%	23.8MB
ONNX Runtime	142	7.0	52.1%	23.8MB
TensorRT FP32	98	10.2	52.0%	23.5MB
TensorRT FP16	47	21.3	51.8%	23.5MB
TensorRT INT8	32	31.2	50.7%	12.1MB

测试表明，FP16模式可在几乎不损失精度的情况下提升2倍速度，INT8模式进一步加速但有约1.4%的精度损失。

五、实际应用部署建议

5.1 内存管理优化

使用cudaMallocHost分配页锁定内存，提升PCIe传输效率
实现流式处理管道，重叠数据传输与计算
动态调整批次大小（根据实际场景选择1-4）

5.2 多线程实现

from threading import Thread
import queue
class InferenceWorker(Thread):
    def __init__(self, engine_path):
        Thread.__init__(self)
        self.engine = load_engine(engine_path)
        self.input_queue = queue.Queue(maxsize=5)
        self.output_queue = queue.Queue(maxsize=5)
    def run(self):
        context = self.engine.create_execution_context()
        while True:
            img_data = self.input_queue.get()
            # 执行推理...
            self.output_queue.put(result)
# 主线程
worker = InferenceWorker('yolov3-tiny.engine')
worker.start()
# 生产者线程
def image_producer():
    cap = cv2.VideoCapture(0)
    while True:
        ret, frame = cap.read()
        if ret:
            preprocessed = preprocess(frame)
            worker.input_queue.put(preprocessed)

5.3 常见问题解决

CUDA内存不足：
- 减少批次大小
- 使用cudaFree及时释放内存
- 升级JetPack版本
引擎构建失败：
- 检查ONNX模型兼容性
- 验证输入输出名称匹配
- 增加TensorRT超时限制
精度异常：
- 重新进行INT8校准
- 检查预处理是否与训练时一致
- 验证后处理解码逻辑

六、扩展应用方向

多模型并行：通过TensorRT的IExecutionContext实现多个引擎并发执行
动态输入尺寸：利用优化配置文件处理不同分辨率输入
模型量化感知训练：在训练阶段加入量化约束，减少部署精度损失
与ROS集成：创建ROS节点发布检测结果，用于机器人视觉

通过系统化的TensorRT优化，Jetson Nano可充分发挥其边缘计算潜力，在资源受限环境下实现高性能实时目标检测。开发者应根据具体场景平衡精度与速度需求，选择合适的优化策略。