一、引言

声纹识别（Voiceprint Recognition）是一种通过分析语音信号中的生物特征来识别说话人身份的技术，广泛应用于安防、金融、智能设备等领域。其核心在于提取具有区分度的语音特征，并通过模式识别算法实现身份匹配。梅尔频率倒谱系数（MFCC）作为语音信号处理中最常用的特征之一，因其能有效模拟人耳听觉特性，成为声纹识别的关键技术。本文将围绕MFCC展开，详细介绍基于MFCC的声纹识别系统在MATLAB中的实现过程，并提供完整的源码示例。

二、MFCC特征提取原理

MFCC的核心思想是将语音信号从时域转换到频域，再通过梅尔滤波器组模拟人耳对不同频率的感知特性，最终提取倒谱系数作为特征。其计算流程包括以下步骤：

预加重：通过一阶高通滤波器提升高频分量，补偿语音信号受口鼻辐射影响导致的高频衰减。公式为：
$$y[n] = x[n] - \alpha x[n-1]$$
其中，$\alpha$通常取0.95~0.97。
分帧与加窗：将连续语音信号分割为短时帧（通常20~30ms），并加汉明窗减少频谱泄漏。汉明窗公式为：
$$w[n] = 0.54 - 0.46\cos\left(\frac{2\pi n}{N-1}\right)$$
其中，$N$为帧长。
傅里叶变换：对每帧信号进行快速傅里叶变换（FFT），将时域信号转换为频域功率谱。
梅尔滤波器组：将线性频率尺度转换为梅尔频率尺度（模拟人耳对低频更敏感的特性），并通过三角形滤波器组计算每个频带的能量。梅尔频率与线性频率的转换公式为：
$$m = 2595 \log_{10}\left(1 + \frac{f}{700}\right)$$
其中，$f$为线性频率（Hz）。
对数运算与DCT：对滤波器组输出取对数，模拟人耳对响度的非线性感知，再通过离散余弦变换（DCT）提取倒谱系数。通常保留前12~13个系数作为MFCC特征。

三、MATLAB实现步骤与源码

1. 语音信号预处理

% 读取语音文件
[x, fs] = audioread('speech.wav');
% 预加重
alpha = 0.97;
x_pre = filter([1 -alpha], 1, x);
% 分帧参数
frame_len = round(0.025 * fs); % 25ms帧长
frame_shift = round(0.01 * fs); % 10ms帧移
overlap = frame_len - frame_shift;
% 分帧与加窗
frames = buffer(x_pre, frame_len, overlap, 'nodelay');
hamming_win = hamming(frame_len);
frames_win = frames .* repmat(hamming_win, 1, size(frames, 2));

2. MFCC特征提取

% FFT参数
nfft = 2^nextpow2(frame_len);
% 计算功率谱
power_spec = abs(fft(frames_win, nfft)).^2;
power_spec = power_spec(1:nfft/2+1, :); % 取单边谱
% 梅尔滤波器组参数
num_filters = 26; % 滤波器数量
low_freq = 0; % 最低频率（Hz）
high_freq = fs/2; % 最高频率（Nyquist频率）
% 生成梅尔滤波器组
mel_points = linspace(2595*log10(1+low_freq/700), 2595*log10(1+high_freq/700), num_filters+2);
freq_points = 700*(10.^(mel_points/2595)-1);
bin = floor((nfft+1)*freq_points/fs);
% 构建三角形滤波器
filter_bank = zeros(num_filters, nfft/2+1);
for m = 2:num_filters+1
    for k = 1:nfft/2+1
        if k < bin(m-1)
            filter_bank(m-1, k) = 0;
        elseif k >= bin(m-1) && k <= bin(m)
            filter_bank(m-1, k) = (k - bin(m-1))/(bin(m) - bin(m-1));
        elseif k >= bin(m) && k <= bin(m+1)
            filter_bank(m-1, k) = (bin(m+1) - k)/(bin(m+1) - bin(m));
        else
            filter_bank(m-1, k) = 0;
        end
    end
end
% 计算滤波器组能量
filter_energy = filter_bank * power_spec;
% 对数运算
log_energy = log(filter_energy + eps); % 加eps避免log(0)
% DCT提取MFCC
num_ceps = 13; % 保留的倒谱系数数量
mfcc = dct(log_energy);
mfcc = mfcc(1:num_ceps, :); % 取前13个系数

3. 动态特征扩展（Δ与ΔΔMFCC）

为提升识别率，通常需计算MFCC的一阶差分（ΔMFCC）和二阶差分（ΔΔMFCC）：

% 计算ΔMFCC
delta_window = 2; % 差分窗口大小
num_frames = size(mfcc, 2);
delta_mfcc = zeros(size(mfcc));
for n = delta_window+1:num_frames-delta_window
    delta_mfcc(:, n) = sum((2:delta_window+1) .* (mfcc(:, n+1:n+delta_window) - mfcc(:, n-delta_window:n-1)), 2) / ...
        sum((2:delta_window+1).^2);
end
% 计算ΔΔMFCC
delta_delta_mfcc = diff(delta_mfcc, 1, 2);
% 填充首尾帧（保持维度一致）
delta_delta_mfcc = [zeros(size(mfcc,1),1), delta_delta_mfcc, zeros(size(mfcc,1),1)];
% 合并特征
features = [mfcc; delta_mfcc; delta_delta_mfcc];

四、声纹识别系统实现

1. 训练阶段

假设已有多个说话人的语音数据，需提取MFCC特征并训练分类模型（如GMM-UBM或i-vector）：

% 假设已提取所有说话人的MFCC特征，存储为cell数组
% train_features{i}为第i个说话人的特征矩阵（每列为一帧）
num_speakers = length(train_features);
num_components = 32; % GMM混合数
gmm_models = cell(num_speakers, 1);
for i = 1:num_speakers
    % 初始化GMM参数
    options = statset('MaxIter', 100);
    gmm_models{i} = fitgmdist(train_features{i}', num_components, 'Options', options);
end

2. 测试阶段

对测试语音提取MFCC特征，并计算与各GMM模型的对数似然得分：

% 提取测试语音的MFCC特征
test_mfcc = % (同前MFCC提取代码)
% 计算对数似然
scores = zeros(num_speakers, 1);
for i = 1:num_speakers
    % 使用GMM模型计算概率密度
    prob = pdf(gmm_models{i}, test_mfcc');
    % 对数似然
    scores(i) = sum(log(prob + eps)); % 加eps避免log(0)
end
% 识别结果
[~, predicted_id] = max(scores);
fprintf('预测说话人ID: %d\n', predicted_id);

五、优化与改进方向

特征优化：结合基频（Pitch）、共振峰（Formant）等辅助特征，提升区分度。
模型改进：采用深度学习模型（如CNN、LSTM）替代传统GMM，直接从原始语音或MFCC中学习更复杂的特征表示。
数据增强：通过加噪、变速、变调等方式扩充训练数据，提升模型鲁棒性。
端到端系统：使用如x-vector或ECAPA-TDNN等端到端模型，简化特征提取与分类流程。

六、结论

本文详细介绍了基于MFCC的声纹识别系统在MATLAB中的实现过程，包括语音预处理、MFCC特征提取、动态特征扩展及GMM分类模型。通过源码示例，读者可快速复现并理解声纹识别的核心流程。未来，随着深度学习技术的发展，MFCC可能与其他特征或模型结合，进一步提升声纹识别的准确率与鲁棒性。

基于MFCC的声纹识别：MATLAB实现与源码解析