一、图像降噪任务的挑战与深度学习解决方案

图像降噪是计算机视觉领域的核心任务之一，其目标是从含噪图像中恢复出清晰图像。传统方法（如非局部均值、BM3D）依赖手工设计的先验假设，难以适应复杂噪声类型（如高斯噪声、泊松噪声、混合噪声）和真实场景的多样性。深度学习的引入，通过数据驱动的方式自动学习噪声分布与图像特征的映射关系，显著提升了降噪性能。

深度学习图像降噪的核心在于网络结构设计。一个优秀的降噪网络需平衡三个关键要素：感受野大小（捕捉全局与局部信息的能力）、计算效率（实时处理的需求）和特征表达能力（对噪声与信号的区分能力）。以下从经典结构到前沿创新，系统梳理深度学习图像降噪网络的核心架构。

二、经典卷积神经网络（CNN）结构

1. 基础CNN架构：从DnCNN到FFDNet

早期深度学习降噪网络以全卷积网络（FCN）为基础，通过堆叠卷积层、批归一化（BatchNorm）和ReLU激活函数实现端到端降噪。代表性工作包括：

DnCNN（2016）：首次将残差学习引入降噪，通过“噪声估计+残差连接”结构，直接预测噪声图而非清晰图像，解决了梯度消失问题。其结构为17层卷积（3×3核）+ReLU+BatchNorm，在加性高斯噪声（AWGN）上表现优异。
FFDNet（2018）：针对DnCNN需训练多个模型处理不同噪声水平的问题，提出可调噪声水平输入结构。通过在输入层拼接噪声水平图（σ值），使单模型适应[0,50]范围的噪声，显著提升了实用性。

代码示例（PyTorch实现DnCNN残差块）：

import torch
import torch.nn as nn
class ResidualBlock(nn.Module):
    def __init__(self, channels=64):
        super().__init__()
        self.conv1 = nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(channels)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(channels)
    def forward(self, x):
        residual = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        out = self.conv2(out)
        out = self.bn2(out)
        out += residual  # 残差连接
        return out

2. 多尺度特征融合：U-Net与金字塔结构

为捕捉不同尺度的噪声模式，多尺度架构成为关键。U-Net（2015）通过编码器-解码器结构与跳跃连接，实现低级特征（细节）与高级特征（语义）的融合。在降噪中，U-Net的变体（如RedNet）通过增加残差连接和深度可分离卷积，在保持轻量化的同时提升了性能。

金字塔结构（如LapSRN的衍生设计）则通过逐级上采样和特征融合，实现从粗到细的降噪。例如，MWCNN（2018）将离散小波变换（DWT）嵌入网络，在频域和空域同时进行特征提取，对周期性噪声（如条纹噪声）效果显著。

三、注意力机制：提升特征选择性

噪声与信号在特征空间中的分布差异是降噪的关键依据。注意力机制通过动态调整特征权重，使网络聚焦于信号相关区域，抑制噪声干扰。

1. 通道注意力：SENet与CBAM

SENet（2017）提出的通道注意力模块，通过全局平均池化（GAP）压缩空间信息，再通过全连接层学习各通道的权重。在降噪中，RDN（2018）将SENet融入残差密集块，使网络自适应选择重要通道。

CBAM（2018）进一步结合通道与空间注意力，通过并行分支分别计算通道权重和空间权重。在真实噪声降噪（如SIDD数据集）中，CBAM的变体能更精准地区分噪声与纹理。

2. 空间注意力：非局部均值与自注意力

传统非局部均值（NLM）通过计算像素间的相似性进行加权平均，但计算复杂度高。自注意力机制（如Non-local Network）将其转化为可学习的操作，通过嵌入空间（Query、Key、Value）计算像素间相关性。在降噪中，N3Net（2018）将自注意力与最近邻搜索结合，在保持高效的同时提升了细节保留能力。

四、生成对抗网络（GAN）：真实感与细节保留

传统L1/L2损失函数易导致过度平滑，丢失高频细节。GAN通过判别器与生成器的对抗训练，迫使生成图像逼近真实分布，显著提升了视觉质量。

1. 条件GAN（cGAN）架构

cGAN将含噪图像作为条件输入判别器，引导生成器产生更真实的降噪结果。CGAN-Den（2017）在生成器中采用U-Net结构，判别器采用PatchGAN，在真实噪声数据集（如DND）上取得了SOTA效果。

2. 循环一致性损失（CycleGAN）

对于无配对数据的场景（如真实噪声与清晰图像无对应关系），CycleGAN通过循环一致性损失（前向+后向降噪）实现无监督学习。Noise2Noise（2018）进一步证明，即使使用含噪-含噪配对数据（而非含噪-清晰配对），GAN仍能学习到有效的降噪映射。

五、Transformer的融合：从NLP到CV的跨越

Vision Transformer（ViT）的兴起为图像降噪提供了新范式。Transformer通过自注意力机制捕捉全局依赖，适合处理长程相关噪声（如周期性噪声）。

1. 纯Transformer架构：SwinIR

SwinIR（2021）将Swin Transformer的移位窗口机制引入降噪，通过局部窗口内自注意力减少计算量，同时通过窗口移位实现跨窗口交互。在真实噪声数据集（如SIDD）上，SwinIR超越了传统CNN方法。

2. CNN-Transformer混合架构

Restormer（2022）提出多Dconv头透射注意力（MDTA），将深度可分离卷积与自注意力结合，在保持轻量化的同时提升了特征表达能力。其结构适用于高分辨率图像降噪（如4K视频）。

六、实用建议与未来方向

数据依赖性：合成噪声数据（如高斯噪声）与真实噪声数据（如相机传感器噪声）的分布差异显著，建议优先使用真实噪声数据集（如SIDD、DND）训练。
轻量化设计：移动端部署需平衡性能与计算量，可采用深度可分离卷积（如MobileNetV3）、通道剪枝或量化技术。
多任务学习：联合降噪与超分辨率、去模糊等任务，通过共享特征提升泛化能力（如SRND）。
自监督学习：利用未标注数据通过对比学习（如SimCLR）或掩码图像建模（如MAE）预训练模型，减少对标注数据的依赖。

未来，神经架构搜索（NAS）有望自动设计最优降噪结构，而扩散模型（如DDPM）在生成高质量降噪结果方面展现出潜力。开发者需持续关注前沿进展，结合具体场景选择或定制网络结构。

深度学习图像降噪网络：从经典结构到前沿创新