语音识别流派：技术演进与核心范式

语音识别技术历经六十余年发展，形成了两大核心流派：基于传统统计方法的流派与基于深度学习的流派。两者的核心差异体现在对语音信号建模的哲学与方法论层面。

1. 传统统计流派：隐马尔可夫模型（HMM）的黄金时代

传统语音识别系统以隐马尔可夫模型（HMM）为核心框架，其技术路线可分解为三个层次：

特征提取层：采用梅尔频率倒谱系数（MFCC）或感知线性预测（PLP）等算法，将时域波形转换为频域特征向量。例如，MFCC的计算流程包含预加重、分帧、加窗、傅里叶变换、梅尔滤波器组处理、对数运算及离散余弦变换（DCT）等步骤，典型参数设置为帧长25ms、帧移10ms。
声学模型层：HMM通过状态转移概率与输出概率分布建模语音的动态特性。每个音素或词对应一个HMM状态序列，例如三状态结构（开始/稳定/结束）。高斯混合模型（GMM）常用于建模状态输出概率，如对每个状态训练包含16-32个高斯分量的混合模型。
语言模型层：基于N-gram统计语言模型量化词序列的合理性。例如，四元语法模型通过计算P(w4|w1,w2,w3)评估词序列概率，需处理数亿级N-gram条目的存储与平滑问题。

典型系统：Kaldi工具包中的TDNN（时延神经网络）+HMM混合系统，通过i-vector提取说话人特征，结合LF-MMI（格点自由最大互信息）准则训练声学模型，在Switchboard数据集上达到5.1%的词错误率（WER）。

深度学习流派以数据驱动为核心，通过神经网络直接建模语音到文本的映射关系，主要分为三类架构：

CTC（连接时序分类）架构：如Deep Speech系列，采用双向RNN（LSTM/GRU）或Transformer编码器，通过CTC损失函数处理输入输出长度不一致问题。例如，Deep Speech2使用7层双向LSTM（每层1024单元），配合卷积层进行时频特征提取。
注意力机制架构：如Listen-Attend-Spell（LAS）模型，通过编码器-解码器框架结合注意力权重动态聚焦关键特征。编码器采用Pyramid RNN或Conformer结构，解码器使用LSTM或Transformer自回归生成字符序列。
纯Transformer架构：如Wav2Vec 2.0、HuBERT等自监督预训练模型，通过掩码语言模型（MLM）任务学习语音表征。例如，HuBERT在960小时LibriSpeech数据上预训练后，仅需10小时标注数据即可达到5.2%的WER。

技术优势：端到端模型省略了传统系统中复杂的对齐与特征工程步骤，在AISHELL-1中文数据集上，Transformer-CTC模型相比TDNN-HMM系统，WER降低37%（从8.6%降至5.4%）。

语音活动检测（VAD）：基于能量阈值或神经网络（如CRNN）区分语音与非语音段，典型参数设置为短时能量阈值0.01，过零率阈值30。
降噪处理：采用谱减法或深度学习模型（如SEGAN）抑制背景噪声。例如，谱减法通过估计噪声谱并从带噪谱中减去实现降噪。
特征提取：现代系统多采用滤波器组特征（FBANK）或MFCC。FBANK通过梅尔滤波器组对功率谱加权求和，生成40维特征向量；MFCC则进一步通过DCT压缩得到13维系数。

传统系统：GMM-HMM模型中，每个状态对应一个GMM分布，训练时使用EM算法迭代更新参数。例如，TIMIT数据集上，三音素GMM-HMM系统需训练约3000个状态。
深度学习系统：
- 帧级别分类：CNN（如VGG）或TDNN提取局部特征，后接全连接层输出帧级别音素后验概率。
- 序列建模：BiLSTM或Transformer捕获长时依赖关系，例如Conformer结构结合卷积与自注意力机制，在LibriSpeech数据集上达到2.1%的WER。

N-gram模型：通过Kneser-Ney平滑处理未登录词问题，例如5-gram模型在10亿词规模语料上训练，需占用约50GB内存。
神经语言模型：LSTM或Transformer模型通过上下文嵌入预测下一个词，如GPT-2在800万网页数据上训练，生成连贯文本的能力显著提升。
融合策略：传统系统通过WFST（加权有限状态转换器）解码时，语言模型权重通常设为0.8-1.2；端到端系统则通过浅层融合（Shallow Fusion）或深度融合（Deep Fusion）整合语言信息。

维特比解码：传统HMM系统中，通过动态规划搜索最优状态序列，时间复杂度为O(T*N^2)，其中T为帧数，N为状态数。
束搜索（Beam Search）：端到端系统中，维护Top-K个候选序列，例如K=10时，在AISHELL-1数据集上解码速度可达实时率的0.3倍。
WFST解码图：传统系统将HMM、发音词典、语言模型编译为单一WFST，通过动态规划实现高效搜索，例如Kaldi中的compile-train-graphs工具。

语音识别技术的演进体现了从规则驱动到数据驱动的范式转变。开发者需根据应用场景（如医疗转录、智能家居、车载语音）选择合适的技术路线，并结合领域知识进行系统优化。未来，随着自监督学习、多模态融合等技术的发展，语音识别的准确率与鲁棒性将进一步提升，为人工智能交互提供更坚实的基础。