旷视科技端侧Raw降噪:赋能商业影像新突破

旷视科技端侧Raw降噪:赋能商业影像新突破

一、端侧Raw降噪的技术价值与行业痛点

在移动影像、安防监控、工业检测等商用场景中,Raw格式图像因其保留了传感器原始数据而成为高质量成像的基础。然而,Raw图像的噪声问题(如暗电流噪声、读出噪声、热噪声等)直接影响后续处理的精度,尤其在低光照或高动态范围场景下更为显著。传统降噪方案多依赖云端处理或设备端JPEG格式的后期优化,但存在以下痛点:

  1. 实时性不足:云端传输与处理延迟无法满足实时监控、AR交互等场景需求;
  2. 数据隐私风险:Raw数据上传云端可能泄露敏感信息(如医疗影像、安防画面);
  3. 能效比低:设备端基于JPEG的降噪需先解马赛克(Demosaic),导致计算冗余与功耗增加;
  4. 模型适配难:通用降噪算法难以兼顾不同传感器特性(如CMOS与CCD的噪声分布差异)。

旷视科技提出的商用端侧Raw图像降噪方案,通过轻量化模型架构与传感器适配技术,直接在设备端对Raw数据进行降噪处理,实现了低延迟、高隐私、低功耗的突破。

二、技术架构:多尺度融合与轻量化设计

1. 模型核心:多尺度特征融合网络

旷视方案采用编码器-解码器结构,核心创新点在于多尺度特征提取与融合:

  • 编码器阶段:通过分层卷积(如3×3、5×5卷积核)提取不同尺度的噪声特征,低层卷积捕捉局部高频噪声,高层卷积建模全局低频噪声;
  • 特征融合模块:引入跳跃连接(Skip Connection)与注意力机制(如SE模块),将浅层细节信息与深层语义信息融合,避免噪声过度平滑;
  • 解码器阶段:采用转置卷积逐步上采样,结合残差连接(Residual Connection)保留原始信号特征,最终输出降噪后的Raw数据。

代码示例(简化版PyTorch实现)

  1. import torch
  2. import torch.nn as nn
  3. class MultiScaleFusion(nn.Module):
  4. def __init__(self):
  5. super().__init__()
  6. # 编码器:多尺度卷积
  7. self.conv3x3 = nn.Conv2d(1, 16, 3, padding=1)
  8. self.conv5x5 = nn.Conv2d(1, 16, 5, padding=2)
  9. # 注意力模块(SE简化版)
  10. self.se = nn.Sequential(
  11. nn.AdaptiveAvgPool2d(1),
  12. nn.Linear(32, 8), nn.ReLU(),
  13. nn.Linear(8, 32), nn.Sigmoid()
  14. )
  15. # 解码器
  16. self.deconv = nn.ConvTranspose2d(32, 1, 3, stride=2, padding=1, output_padding=1)
  17. def forward(self, x):
  18. # 多尺度特征提取
  19. feat3x3 = self.conv3x3(x)
  20. feat5x5 = self.conv5x5(x)
  21. feat = torch.cat([feat3x3, feat5x5], dim=1) # 融合32通道
  22. # 注意力加权
  23. weight = self.se(feat)
  24. feat = feat * weight.unsqueeze(2).unsqueeze(3)
  25. # 解码输出
  26. return self.deconv(feat)

2. 轻量化优化:模型压缩与硬件加速

为适配端侧设备(如手机、摄像头),旷视通过以下技术降低计算量:

  • 通道剪枝:基于L1范数筛选重要性低的卷积通道,剪枝率可达50%以上;
  • 量化感知训练:将权重从FP32量化为INT8,模型体积缩小4倍,推理速度提升3倍;
  • 硬件友好设计:优化卷积核大小(避免7×7等大核),适配NPU/DSP的并行计算单元。

实测数据显示,在骁龙865平台上,该方案处理12MP Raw图像的延迟低于20ms,功耗仅增加8%。

三、商用场景落地与效果验证

1. 安防监控:低光照人脸识别

在夜间监控场景中,Raw降噪可显著提升人脸检测准确率。某安防厂商集成旷视方案后,在0.1lux光照下,人脸识别通过率从62%提升至89%,误检率下降40%。

2. 医疗影像:内窥镜噪声抑制

内窥镜成像中,传感器热噪声会导致组织细节模糊。旷视方案通过定制噪声模型(基于内窥镜CMOS特性训练),使血管边缘清晰度提升35%,助力早期病灶诊断。

3. 消费电子:手机夜景拍摄

与传统多帧合成降噪相比,端侧Raw降噪无需存储多帧数据,节省内存占用达60%。某旗舰手机实测显示,降噪后图像的PSNR(峰值信噪比)提升2.3dB,SSIM(结构相似性)提高0.15。

四、开发者与企业适配建议

1. 传感器适配指南

  • 噪声建模:建议针对不同传感器(如索尼IMX586、三星ISOCELL)采集噪声样本,构建噪声分布图;
  • 数据增强:在训练集中加入不同温度、曝光时间的噪声数据,提升模型鲁棒性;
  • 联合校准:与传感器厂商合作,获取黑电平(Black Level)、增益系数等参数,优化模型输入。

2. 部署优化策略

  • 动态分辨率:根据设备算力动态调整输入分辨率(如从12MP降至6MP);
  • 异构计算:利用CPU处理控制逻辑,NPU执行卷积运算,GPU负责后处理;
  • 模型热更新:通过OTA推送新噪声模型,适配传感器老化或环境变化。

五、未来展望:端侧AI与传感器深度融合

旷视科技正探索将Raw降噪与传感器设计结合,例如:

  • 嵌入式降噪芯片:与传感器厂商合作,在CMOS内部集成降噪电路;
  • 多模态降噪:融合红外、ToF等多光谱数据,提升复杂光照下的降噪效果;
  • 自监督学习:利用无标签数据训练降噪模型,降低数据采集成本。

结语:旷视科技的商用端侧Raw图像降噪方案,通过技术创新解决了实时性、隐私与能效的矛盾,为安防、医疗、消费电子等领域提供了高效、可靠的影像处理工具。随着端侧AI算力的持续提升,Raw降噪将成为移动影像与智能设备的基础能力,推动行业向更高质量、更低功耗的方向发展。