2404-173-语音识别算法入门记录

一、语音识别技术全景概览

语音识别（Automatic Speech Recognition, ASR）作为人机交互的核心技术，经历了从模式匹配到深度学习的范式转变。现代ASR系统主要由前端处理、声学模型、语言模型和解码器四大模块构成。前端处理负责将原始声波转换为适合机器学习的特征表示，典型流程包括预加重、分帧、加窗和特征提取（如MFCC、FBANK）。声学模型通过深度神经网络建立语音特征与音素或字符的映射关系，语言模型则利用统计方法预测词序列的概率分布。

1.1 核心算法演进路径

传统方法：基于隐马尔可夫模型（HMM）与高斯混合模型（GMM）的混合系统，通过Viterbi算法解码最优路径
深度学习时代：
- DNN-HMM：用深度神经网络替代GMM进行声学建模
- 端到端模型：CTC（Connectionist Temporal Classification）、RNN-T（RNN Transducer）、Transformer架构直接输出文本
当前技术栈：以Conformer（卷积增强Transformer）为代表的混合架构，结合局部特征提取与全局注意力机制

二、声学特征提取工程实践

特征提取是连接原始声波与机器学习模型的关键桥梁，MFCC（Mel频率倒谱系数）因其模拟人耳听觉特性成为行业标准。

2.1 MFCC计算全流程

import librosa
import numpy as np
def extract_mfcc(audio_path, sr=16000, n_mfcc=13):
    # 1. 加载音频并重采样
    y, sr = librosa.load(audio_path, sr=sr)
    # 2. 预加重（增强高频部分）
    y = librosa.effects.preemphasis(y)
    # 3. 分帧加窗（帧长25ms，帧移10ms）
    frames = librosa.util.frame(y, frame_length=int(0.025*sr), hop_length=int(0.01*sr))
    window = np.hanning(frames.shape[1])
    framed = frames * window
    # 4. 计算功率谱
    power_spectrum = np.abs(librosa.stft(framed))**2
    # 5. Mel滤波器组处理
    n_fft = 512
    mel_basis = librosa.filters.mel(sr=sr, n_fft=n_fft, n_mels=40)
    mel_energy = np.dot(mel_basis, power_spectrum)
    # 6. 对数变换与DCT
    log_mel = np.log(mel_energy + 1e-6)
    mfcc = librosa.feature.dct(log_mel, n=n_mfcc)
    return mfcc.T  # 返回(时间帧数×特征维度)的矩阵

2.2 特征工程优化方向

动态特征补偿：加入一阶、二阶差分系数（Δ, ΔΔ）
频谱归一化：CMVN（Cepstral Mean and Variance Normalization）
数据增强技术：速度扰动、加性噪声、频谱掩蔽（SpecAugment）

三、声学模型架构解析

现代声学模型呈现”前端CNN+中间Transformer+后端预测头”的混合架构特征。

3.1 典型模型对比

模型类型	代表架构	优势	计算复杂度
卷积网络	VGG、ResNet	局部特征提取能力强	中等
循环网络	LSTM、BiLSTM	时序建模能力突出	高
自注意力机制	Transformer	长距离依赖建模	极高
混合架构	Conformer	结合CNN局部性与自注意力	较高

3.2 CTC损失函数实现

CTC通过引入空白标签（blank）解决输入输出长度不一致问题，其核心在于动态规划计算所有可能路径的概率和：

import torch
import torch.nn as nn
class CTCLoss(nn.Module):
    def __init__(self):
        super().__init__()
        self.ctc_loss = nn.CTCLoss(blank=0, reduction='mean')
    def forward(self, logits, targets, input_lengths, target_lengths):
        # logits: (T, N, C) 模型输出
        # targets: (N, S) 目标序列
        # input_lengths: (N,) 每个样本的有效长度
        # target_lengths: (N,) 每个目标序列的长度
        return self.ctc_loss(logits.log_softmax(2), 
                            targets, 
                            input_lengths, 
                            target_lengths)

四、语言模型集成策略

语言模型通过统计方法为解码过程提供语言学约束，n-gram模型和神经语言模型（NNLM）是两大主流方案。

4.1 KenLM工具使用指南

安装编译：

git clone https://github.com/kpu/kenlm.git
cd kenlm
mkdir build && cd build
cmake ..
make -j4

训练4-gram模型：

./lmplz -o 4 --text train.txt --arpa model.arpa
./build_binary model.arpa model.bin

Python调用示例：

from kenlm import LanguageModel
lm = LanguageModel('model.bin')
score = lm.score('这是一个测试句子')

4.2 解码算法对比

算法	特点	适用场景
贪心搜索	每步选择概率最大的token	实时性要求高的场景
集束搜索	维护top-k候选路径	平衡速度与准确率
WFST解码	融合声学模型与语言模型	工业级系统
神经解码器	端到端联合优化	最新研究趋势

五、工程化实践建议

数据准备：
- 采样率统一为16kHz（语音识别标准）
- 构建包含噪声、口音、语速变化的多场景数据集
- 使用VAD（语音活动检测）去除静音段
模型优化：
- 知识蒸馏：用大模型指导小模型训练
- 量化压缩：将FP32权重转为INT8
- 模型剪枝：移除不重要的神经元连接
部署方案：
- ONNX Runtime：跨平台高性能推理
- TensorRT：NVIDIA GPU加速
- WebAssembly：浏览器端实时识别

六、学习资源推荐

经典论文：
- 《Connectionist Temporal Classification: Labeling Unsegmented Sequence Data with Recurrent Neural Networks》
- 《Conformer: Convolution-augmented Transformer for Speech Recognition》
开源框架：
- Kaldi：传统ASR系统标杆
- ESPnet：端到端语音处理工具包
- WeNet：生产级端到端解决方案
数据集：
- AISHELL-1：中文普通话数据集
- LibriSpeech：英文数据集
- Common Voice：多语言众包数据集

通过系统学习上述内容，开发者可建立完整的语音识别技术体系，从特征提取到模型部署形成闭环能力。建议初学者从Kaldi的HMM-GMM系统入手，逐步过渡到端到端模型，最终掌握工业级系统的开发调试技巧。

2404-173：从零开始掌握语音识别算法核心逻辑