Linux环境下离线部署Vosk实现语音识别与播放

小编 1 2025-09-20 06:56

一、Vosk语音识别工具简介

Vosk是一款开源的语音识别工具包，支持多种编程语言（Python、Java、C#等）和多种平台（Windows、Linux、macOS等）。其核心优势在于支持离线使用，无需依赖云端服务，非常适合对隐私保护要求高或网络环境不稳定的场景。

Vosk的语音识别基于深度学习模型，能够识别多种语言和方言。对于Linux用户而言，Vosk提供了命令行工具和API接口，方便开发者集成到自己的应用中。

二、Linux环境下离线部署Vosk

1. 环境准备

在开始部署Vosk之前，需要确保Linux系统已经安装了Python和pip。大多数现代Linux发行版都默认安装了这些工具。可以通过以下命令检查：

python3 --version
pip3 --version

如果未安装，可以使用系统的包管理器进行安装。例如，在Ubuntu上可以使用：

sudo apt update
sudo apt install python3 python3-pip

2. 安装Vosk

Vosk可以通过pip直接安装。在终端中执行以下命令：

pip3 install vosk

安装完成后，可以通过导入vosk模块来验证安装是否成功：

python3 -c "import vosk; print('Vosk installed successfully')"

3. 下载语音识别模型

Vosk的语音识别依赖于预训练的模型文件。这些模型文件可以从Vosk的官方GitHub仓库下载。根据需要选择合适的语言和模型大小。例如，下载英文小模型：

wget https://alphacephei.com/vosk/models/vosk-model-small-en-us-0.15.zip
unzip vosk-model-small-en-us-0.15.zip

解压后，会得到一个包含模型文件的目录。

三、使用Vosk进行语音识别

1. 录制音频文件

在Linux中，可以使用arecord命令录制音频文件。确保系统已安装alsa-utils包：

sudo apt install alsa-utils

然后，使用以下命令录制一段音频（假设麦克风已正确连接）：

arecord --duration=10 --format=dat --file-type=wav test.wav

这条命令会录制10秒的音频，并保存为WAV格式的文件。

2. 编写Python脚本进行语音识别

创建一个Python脚本（例如recognize.py），内容如下：

from vosk import Model, KaldiRecognizer
import sys
import os
import wave
# 加载模型
model_path = "vosk-model-small-en-us-0.15"  # 替换为你的模型路径
if not os.path.exists(model_path):
    print(f"Error: Model directory {model_path} does not exist")
    sys.exit(1)
model = Model(model_path)
# 读取WAV文件
wf = wave.open("test.wav", "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("Audio file must be WAV format mono PCM.")
    sys.exit(1)
# 创建识别器
rec = KaldiRecognizer(model, wf.getframerate())
# 逐帧处理音频
frames = wf.readframes(wf.getnframes())
if rec.AcceptWaveform(frames):
    result = rec.Result()
    print(result)
else:
    print("Error during recognition")
wf.close()

运行脚本：

python3 recognize.py

如果一切正常，脚本会输出识别结果。

四、在Linux中播放语音

1. 使用`aplay`播放音频

Linux系统通常自带aplay工具，可以用来播放WAV文件。例如：

aplay test.wav

2. 使用Python播放音频（可选）

如果需要通过Python程序播放音频，可以使用pydub和simpleaudio库。首先安装这些库：

pip3 install pydub simpleaudio

然后编写一个简单的播放脚本（例如play.py）：

from pydub import AudioSegment
from pydub.playback import play
# 加载音频文件
audio = AudioSegment.from_wav("test.wav")
# 播放音频
play(audio)