Wespeaker说话人识别：5分钟快速实战指南

说话人识别（Speaker Recognition）作为语音处理领域的核心任务，广泛应用于会议纪要、智能客服、安防监控等场景。本文以开源说话人识别工具包Wespeaker为例，通过5分钟快速实战指南，帮助开发者从零开始实现说话人识别功能，涵盖环境配置、模型加载、音频处理、特征提取及推理全流程。

一、环境准备：快速搭建开发环境

1.1 依赖安装

Wespeaker基于Python开发，推荐使用Python 3.8+环境。通过以下命令安装核心依赖：

pip install numpy scipy soundfile librosa pydub torch

关键依赖说明：
- librosa：音频加载与预处理
- torch：深度学习模型推理
- pydub：音频格式转换（可选）

1.2 模型下载

Wespeaker提供预训练模型，支持说话人验证（Speaker Verification）和说话人分割聚类（Speaker Diarization）。从官方仓库下载模型文件：

git clone https://github.com/wenet-e2e/wespeaker.git
cd wespeaker/models
# 下载ECAPA-TDNN预训练模型（示例）
wget https://example.com/ecapa_tdnn.pt

模型选择建议：
- 短语音场景：ECAPA-TDNN（高精度）
- 实时应用：ResNet34（轻量级）

二、核心代码实现：5分钟快速上手

2.1 音频加载与预处理

import librosa
import numpy as np
def load_audio(file_path, sr=16000):
    """加载音频并重采样至16kHz"""
    audio, _ = librosa.load(file_path, sr=sr)
    return audio
# 示例：加载音频文件
audio_path = "test.wav"
audio_data = load_audio(audio_path)
print(f"音频时长: {len(audio_data)/16000:.2f}秒")

注意事项：
- 统一采样率至16kHz（多数模型输入要求）
- 避免音频长度过短（建议≥3秒）

2.2 特征提取：MFCC与FBank

def extract_fbank(audio, sr=16000, n_mels=80):
    """提取FBank特征"""
    fbank = librosa.feature.melspectrogram(
        y=audio, sr=sr, n_mels=n_mels, n_fft=512, hop_length=160
    )
    log_fbank = librosa.power_to_db(fbank)
    return log_fbank.T  # 形状为(时间帧, 频带数)
# 示例：提取FBank特征
features = extract_fbank(audio_data)
print(f"特征维度: {features.shape}")

特征选择对比：
| 特征类型 | 计算复杂度 | 说话人区分性 |
|—————|——————|———————|
| MFCC | 低 | 中等 |
| FBank | 中等 | 高 |

2.3 模型加载与推理

import torch
from wespeaker.models import ECAPA_TDNN
def load_model(model_path, device="cpu"):
    """加载预训练模型"""
    model = ECAPA_TDNN.from_pretrained(model_path)
    model.eval().to(device)
    return model
def extract_embedding(model, features, device="cpu"):
    """提取说话人嵌入向量"""
    with torch.no_grad():
        # 添加batch和长度维度（模型输入要求）
        features_tensor = torch.FloatTensor(features).unsqueeze(0).unsqueeze(0).to(device)
        embedding = model(features_tensor)
    return embedding.cpu().numpy()
# 示例：模型推理
device = "cuda" if torch.cuda.is_available() else "cpu"
model = load_model("ecapa_tdnn.pt", device)
embedding = extract_embedding(model, features, device)
print(f"嵌入向量维度: {embedding.shape}")

性能优化建议：
- 使用GPU加速（device="cuda"）
- 批量处理音频（单次推理多段音频）

2.4 说话人验证：相似度计算

from scipy.spatial.distance import cosine
def verify_speaker(emb1, emb2, threshold=0.3):
    """计算余弦相似度并判断是否为同一人"""
    similarity = 1 - cosine(emb1, emb2)
    return similarity > threshold
# 示例：说话人验证
emb_ref = embedding[0]  # 参考说话人嵌入
emb_test = embedding[0]  # 测试说话人嵌入（实际场景需替换）
is_same = verify_speaker(emb_ref, emb_test)
print(f"是否为同一人: {is_same}")

阈值选择：
- 严格场景（如支付验证）：threshold=0.25
- 宽松场景（如会议纪要）：threshold=0.35

三、进阶实践：说话人分割聚类

3.1 基于聚类的说话人分割

from sklearn.cluster import AgglomerativeClustering
def diarize_speech(embeddings, n_speakers=2):
    """使用层次聚类进行说话人分割"""
    clustering = AgglomerativeClustering(
        n_clusters=n_speakers, affinity="cosine", linkage="average"
    )
    labels = clustering.fit_predict(embeddings)
    return labels
# 示例：假设已有多个片段的嵌入向量
embeddings_list = [embedding[0] for _ in range(10)]  # 替换为实际嵌入向量
labels = diarize_speech(embeddings_list, n_speakers=2)
print(f"聚类标签: {labels}")

挑战与解决方案：
- 动态说话人数：使用肘部法则或GMM自动确定聚类数
- 短片段问题：合并相邻片段后再聚类

3.2 实时说话人识别架构

graph TD
    A[音频流] --> B[分帧处理]
    B --> C[特征提取]
    C --> D[嵌入向量生成]
    D --> E[滑动窗口缓存]
    E --> F[聚类/验证模块]
    F --> G[输出结果]

实时性优化：
- 使用环形缓冲区存储最近3秒音频
- 每500ms触发一次推理

四、最佳实践与避坑指南

4.1 性能优化技巧

模型量化：使用torch.quantization将FP32模型转为INT8，推理速度提升3倍
特征缓存：对重复音频片段缓存特征，避免重复计算
多线程处理：使用concurrent.futures并行处理多个音频文件

4.2 常见问题解决

问题：模型输出不稳定
- 原因：音频能量过低
- 解决：添加预处理步骤audio = audio / np.max(np.abs(audio)) * 0.9
问题：跨设备性能差异
- 原因：麦克风频响特性不同
- 解决：在训练数据中加入多种设备采集的音频

五、扩展应用场景

智能会议系统：结合ASR实现“谁说了什么”的精准记录
安防监控：通过说话人识别锁定特定人员语音
内容审核：自动识别黑名单说话人的语音内容

结语

通过本文的5分钟快速指南，开发者已掌握Wespeaker的核心使用方法，从环境配置到模型推理，再到进阶的说话人分割聚类技术。实际部署时，建议结合具体场景调整模型阈值和聚类策略，并通过持续收集真实数据优化模型性能。

下一步建议：

尝试微调预训练模型以适应特定领域语音
探索Wespeaker与WebRTC结合实现浏览器端实时识别
参考官方文档中的多GPU推理优化方案