基础理论：语音信号与噪声特性

语音信号本质是随时间变化的压力波，其频谱范围通常集中在300Hz-3400Hz。噪声则分为加性噪声（如环境噪声）和乘性噪声（如信道失真），其中加性噪声的去除是降噪技术的核心。时域分析显示，语音具有短时平稳特性，通常以20-30ms为帧长进行分帧处理。

频域分析表明，语音能量主要集中在低频段（<1kHz），而某些噪声（如风扇声）具有明显的线谱特征。这种频谱差异为频域降噪提供了理论基础。通过短时傅里叶变换（STFT）将时域信号转换到频域后，可观察到语音与噪声在频谱上的可分离性。

传统降噪方法实现

谱减法原理与实现

谱减法基于噪声估计和频谱修正，核心公式为：

import numpy as np
from scipy.io import wavfile
def spectral_subtraction(input_path, output_path, noise_frame=20):
    # 读取音频文件
    fs, audio = wavfile.read(input_path)
    if len(audio.shape) > 1:
        audio = audio.mean(axis=1)  # 转为单声道
    # 分帧处理（帧长25ms，重叠50%）
    frame_size = int(0.025 * fs)
    overlap = frame_size // 2
    hop_size = frame_size - overlap
    # 计算噪声谱（假设前noise_frame帧为纯噪声）
    noise_frames = audio[:noise_frame*hop_size]
    noise_frames = np.reshape(noise_frames, (noise_frame, frame_size))
    noise_spec = np.mean(np.abs(np.fft.rfft(noise_frames, axis=1)), axis=0)
    # 分帧加窗
    num_frames = (len(audio) - frame_size) // hop_size + 1
    frames = np.zeros((num_frames, frame_size))
    for i in range(num_frames):
        start = i * hop_size
        end = start + frame_size
        frames[i] = audio[start:end] * np.hamming(frame_size)
    # 谱减处理
    enhanced_frames = np.zeros_like(frames)
    for i in range(num_frames):
        frame_spec = np.abs(np.fft.rfft(frames[i]))
        # 谱减公式：|X(k)| = max(|Y(k)| - α|N(k)|, β|N(k)|)
        alpha = 2.0  # 过减因子
        beta = 0.002  # 谱底
        enhanced_spec = np.maximum(frame_spec - alpha * noise_spec, beta * noise_spec)
        # 相位保持
        phase = np.angle(np.fft.rfft(frames[i]))
        enhanced_frame = np.fft.irfft(enhanced_spec * np.exp(1j * phase))
        enhanced_frames[i] = enhanced_frame[:frame_size]
    # 重构信号
    output = np.zeros(len(audio))
    for i in range(num_frames):
        start = i * hop_size
        end = start + frame_size
        output[start:end] += enhanced_frames[i]
    # 归一化并保存
    output = output / np.max(np.abs(output)) * 0.9
    wavfile.write(output_path, fs, output.astype(np.int16))

该方法存在音乐噪声问题，可通过改进的改进谱减法（IMSSA）缓解，其核心是动态调整过减因子和谱底参数。

维纳滤波实现

维纳滤波通过最小化均方误差实现最优滤波，其传递函数为：

def wiener_filter(input_path, output_path, snr_estimate=10):
    fs, audio = wavfile.read(input_path)
    frame_size = 512
    overlap = 256
    # 噪声功率谱估计（假设前0.5秒为噪声）
    noise_samples = int(0.5 * fs)
    noise = audio[:noise_samples]
    noise_power = np.abs(np.fft.rfft(noise))**2
    noise_power = np.mean(noise_power, axis=0)
    # 分帧处理
    num_frames = (len(audio) - frame_size) // overlap + 1
    frames = np.zeros((num_frames, frame_size))
    for i in range(num_frames):
        start = i * overlap
        end = start + frame_size
        frames[i] = audio[start:end] * np.hanning(frame_size)
    # 维纳滤波
    enhanced_frames = np.zeros_like(frames)
    for i in range(num_frames):
        frame_spec = np.abs(np.fft.rfft(frames[i]))**2
        # 假设信号功率=帧功率-噪声功率
        signal_power = np.maximum(frame_spec - noise_power, 1e-6)
        # 维纳滤波公式
        gamma = 10 ** (snr_estimate / 10)  # 先验SNR
        wiener_gain = signal_power / (signal_power + gamma * noise_power)
        phase = np.angle(np.fft.rfft(frames[i]))
        enhanced_spec = np.sqrt(wiener_gain) * frame_spec * np.exp(1j * phase)
        enhanced_frames[i] = np.fft.irfft(enhanced_spec)[:frame_size]
    # 重构信号（同谱减法）
    # ...（省略重构代码）

该方法需要准确的噪声功率谱估计，实际应用中可采用动态跟踪算法。

深度学习降噪方法

LSTM降噪模型实现

import tensorflow as tf
from tensorflow.keras.layers import Input, LSTM, Dense, TimeDistributed
from tensorflow.keras.models import Model
def build_lstm_model(input_shape=(256, 1), rnn_units=128):
    inputs = Input(shape=input_shape)
    # 双向LSTM结构
    x = tf.keras.layers.Bidirectional(LSTM(rnn_units, return_sequences=True))(inputs)
    x = tf.keras.layers.Bidirectional(LSTM(rnn_units, return_sequences=True))(x)
    # 全连接层
    outputs = TimeDistributed(Dense(256))(x)
    model = Model(inputs=inputs, outputs=outputs)
    model.compile(optimizer='adam', loss='mse')
    return model
# 数据准备示例
def prepare_data(audio_path, frame_size=256):
    fs, audio = wavfile.read(audio_path)
    audio = audio / 32768.0  # 归一化
    # 生成带噪-纯净对（示例）
    # 实际应用中需要真实带噪语音和对应纯净语音
    num_frames = len(audio) // frame_size
    clean_frames = np.zeros((num_frames, frame_size))
    noisy_frames = np.zeros((num_frames, frame_size))
    for i in range(num_frames):
        start = i * frame_size
        end = start + frame_size
        clean_frames[i] = audio[start:end]
        # 模拟加噪（实际应用应使用真实噪声）
        noise = np.random.normal(0, 0.05, frame_size)
        noisy_frames[i] = clean_frames[i] + noise
    # 转换为频域特征
    def frame_to_spectrum(frames):
        spectra = np.zeros((frames.shape[0], frame_size//2 + 1))
        for i in range(frames.shape[0]):
            spectra[i] = np.abs(np.fft.rfft(frames[i]))
        return spectra[:, :, np.newaxis]  # 添加通道维度
    X = frame_to_spectrum(noisy_frames)
    y = frame_to_spectrum(clean_frames)
    return X, y
# 训练流程
X_train, y_train = prepare_data('clean.wav')
model = build_lstm_model()
model.fit(X_train, y_train, epochs=50, batch_size=32)

实际应用中需要大规模真实噪声数据集（如DNS Challenge数据集），并采用频谱掩蔽或直接时域预测等更先进的结构。

CRN网络实现要点

卷积循环网络（CRN）结合CNN的局部特征提取能力和RNN的时序建模能力，其关键实现包括：

def build_crn_model(input_shape=(256, 1)):
    inputs = Input(shape=input_shape)
    # 编码器部分
    x = tf.keras.layers.Conv1D(64, 3, padding='same', activation='relu')(inputs)
    x = tf.keras.layers.MaxPooling1D(2)(x)
    x = tf.keras.layers.Conv1D(128, 3, padding='same', activation='relu')(x)
    x = tf.keras.layers.MaxPooling1D(2)(x)
    # LSTM部分
    x = tf.keras.layers.Reshape((-1, 128))(x)  # 调整维度以适应LSTM
    x = tf.keras.layers.Bidirectional(LSTM(128, return_sequences=True))(x)
    # 解码器部分
    x = tf.keras.layers.Reshape((-1, 128, 1))(x)  # 恢复维度
    x = tf.keras.layers.Conv1DTranspose(64, 3, strides=2, padding='same', activation='relu')(x)
    x = tf.keras.layers.Conv1DTranspose(1, 3, strides=2, padding='same')(x)
    model = Model(inputs=inputs, outputs=x)
    model.compile(optimizer='adam', loss='mae')
    return model

实际应用中需加入跳跃连接（skip connections）和更复杂的卷积块（如SE模块）。

性能评估与优化

客观评估指标

PESQ（感知语音质量评估）：范围-0.5到4.5，>3.0表示良好质量
STOI（短时客观可懂度）：范围0到1，>0.8表示高可懂度
SNR提升：降噪后信噪比与原始信噪比的差值

主观评估方法

采用ABX测试，让听者比较处理前后的语音质量。建议至少招募20名听者，涵盖不同年龄和听力状况。

实时性优化策略

模型量化：将FP32权重转为INT8，可减少75%模型大小
模型剪枝：移除冗余权重，典型剪枝率可达50%-70%
帧处理优化：采用重叠保留法减少计算量
多线程处理：分离FFT计算和滤波操作

实际应用建议

噪声场景适配：针对不同噪声类型（稳态/非稳态）选择不同算法
硬件加速：使用NVIDIA TensorRT或Intel OpenVINO部署模型
动态参数调整：根据实时SNR自动调整降噪强度
端到端优化：结合声学回声消除（AEC）和波束成形（BF）技术

典型应用案例中，采用CRN模型的实时降噪系统在树莓派4B上可达到10ms级延迟，满足VoIP通信需求。对于嵌入式设备，建议使用TFLite Micro框架部署简化模型。

基于Python的语音降噪技术深度解析与实践指南