早期手工特征时代（1990-2010）

传统图像处理方法的探索

在深度学习普及前，物体检测主要依赖手工设计的图像特征。1998年Viola-Jones检测器的提出具有里程碑意义，其采用Haar-like特征和级联分类器结构，通过积分图技术加速特征计算，实现了人脸检测的实时应用。该方法在MIT人脸数据集上达到95%的准确率，成为早期商用安防系统的核心技术。

2005年HOG（方向梯度直方图）特征的提出，将物体检测推向新高度。Dalal团队在CVPR论文中详细阐述了HOG的计算原理：将图像划分为细胞单元，统计每个单元内像素点的梯度方向分布。配合SVM分类器，HOG在PASCAL VOC 2007数据集上取得40%的mAP（平均精度均值），相比之前方法提升近20个百分点。

可变形部件模型（DPM）的突破

Felzenszwalb于2008年提出的DPM模型，通过部件级检测解决物体形变问题。该模型采用星型结构表示物体，由根滤波器和多个部件滤波器组成，每个部件配备独立的变形参数。训练阶段使用隐变量SVM优化部件位置，检测时通过滑动窗口生成候选区域。

DPM在2007-2012年PASCAL VOC竞赛中连续夺冠，其核心优势在于：

多尺度特征表示：通过图像金字塔处理不同尺寸物体
部件级形变建模：允许部件在合理范围内偏移
上下文信息整合：引入周围区域特征增强判别能力

典型实现代码片段：

# DPM检测流程简化示例
def dpm_detect(image):
    # 1. 构建图像金字塔
    pyramid = [image]
    for _ in range(3):
        pyramid.append(cv2.pyrDown(pyramid[-1]))
    # 2. 多尺度滑动窗口
    detections = []
    for scale_img in pyramid:
        for y in range(0, scale_img.shape[0]-64, 8):
            for x in range(0, scale_img.shape[1]-64, 8):
                window = scale_img[y:y+64, x:x+64]
                # 3. 计算HOG特征
                hog_feat = compute_hog(window)
                # 4. 部件模型评分
                score = root_filter.score(hog_feat)
                for part in part_filters:
                    part_score = part.score(hog_feat, offset)
                    score += part_score * deformation_cost
                detections.append((x, y, score))
    # 5. 非极大值抑制
    return nms(detections, 0.5)

深度学习革命（2012-2017）

R-CNN系列的两阶段检测

2012年AlexNet在ImageNet竞赛中的胜利，标志着深度学习时代的到来。Girshick团队于2014年提出的R-CNN（Regions with CNN features）开创了两阶段检测范式：

区域建议：使用选择性搜索生成2000个候选区域
特征提取：将每个区域缩放至224x224输入CNN
分类回归：SVM分类器判断类别，线性回归微调边界框

在VOC 2007测试集上，R-CNN将mAP从DPM的34.3%提升至58.5%。但该方法存在明显缺陷：每个候选区域需独立进行CNN计算，导致检测速度仅5fps。

2015年Fast R-CNN通过ROI Pooling层解决计算冗余问题，将整张图像输入CNN后，再对候选区域进行特征采样。配合多任务损失函数（分类+边界框回归），训练速度提升3倍，测试速度达17fps。

YOLO与SSD的单阶段突破

2016年Redmon提出的YOLO（You Only Look Once）将检测视为回归问题，实现端到端训练：

将图像划分为7x7网格
每个网格预测2个边界框及类别概率
使用暗网（Darknet）作为骨干网络

YOLOv1在Titan X上达到45fps的实时速度，但mAP（63.4%）低于Fast R-CNN（70.0%）。其核心创新在于检测框架的重新设计：

# YOLOv1网络结构简化示例
class YOLOv1(nn.Module):
    def __init__(self):
        super().__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, 7, stride=2),
            nn.MaxPool2d(2),
            # ... 中间层省略
            nn.Conv2d(256, 512, 3, padding=1),
            nn.MaxPool2d(2)
        )
        self.detector = nn.Sequential(
            nn.Flatten(),
            nn.Linear(7*7*512, 4096),
            nn.Dropout(0.5),
            nn.Linear(4096, 7*7*30)  # 每个网格预测2个框(x,y,w,h,conf)+20类概率
        )

同年Liu提出的SSD（Single Shot MultiBox Detector）采用多尺度特征图检测策略，在VGG16基础上添加多个辅助卷积层，分别预测不同尺度物体的边界框。SSD300在VOC 2007上达到74.3%的mAP，速度59fps，平衡了精度与速度。

现代检测体系（2018-至今）

特征金字塔与注意力机制

2017年Lin提出的FPN（Feature Pyramid Network）通过自顶向下的路径增强和横向连接，构建多尺度特征金字塔。实验表明，FPN可使ResNet-101的检测mAP提升2.9个百分点，尤其在检测小物体时效果显著。

2020年Carion提出的DETR（Detection Transformer）将Transformer架构引入检测领域，其创新点包括：

使用集合预测替代锚框设计
通过二分匹配实现端到端训练
采用全局注意力机制捕捉上下文

DETR在COCO数据集上达到44.2%的AP，但需要GPU训练500epoch。后续改进如Deformable DETR通过可变形注意力模块，将训练时间缩短至36epoch。

轻量化与实时检测

针对移动端部署需求，2019年Wang提出的ThunderNet采用轻量级骨干网络（SqueezeNet变体）和上下文增强模块，在ARM设备上实现25fps的实时检测。2021年Ge提出的YOLOX通过解耦检测头、Anchor-free设计和SimOTA动态标签分配，使YOLO系列在保持高速的同时精度显著提升。

最新进展如2023年提出的RT-DETR，通过高效注意力机制和动态标签分配，在Tesla V100上达到132fps的推理速度，COCO AP达53.0%，成为工业界实时检测的新标杆。

技术演进规律与启示

精度速度平衡：从R-CNN的5fps/58.5%mAP到RT-DETR的132fps/53.0%AP，检测器在保持精度同时速度提升26倍
框架设计范式：经历手工特征→两阶段→单阶段→Transformer的演进，计算效率逐步优化
实际应用建议：
- 资源充足场景优先选择两阶段检测器（如Faster R-CNN）
- 实时应用推荐YOLOv8或RT-DETR等高效模型
- 小目标检测需关注多尺度特征融合设计
- 移动端部署应选择ThunderNet等轻量化方案

当前物体检测技术仍面临挑战：密集场景下的遮挡处理、跨域检测的泛化能力、三维空间中的定位精度等。随着神经架构搜索（NAS）和自监督学习的深入，下一代检测器有望实现更智能的场景理解与交互能力。

从手工特征到深度学习：物体检测发展历程与技术演进