极简Python接入免费语音识别API：零成本实现语音转文本方案

一、免费语音识别API的选择与对比

1.1 主流免费API分析

当前主流的免费语音识别API包括Google Speech-to-Text（免费层）、AssemblyAI免费计划、Vosk离线模型及微软Azure Cognitive Services免费额度。其中，Google Speech-to-Text免费层每月提供60分钟音频处理，适合轻量级需求；AssemblyAI提供500分钟/月的免费转录，支持实时流式处理；Vosk作为离线方案，无需网络依赖，但需下载语言模型（约2GB）。微软Azure的免费额度为500万字符/月，但需绑定信用卡，可能限制部分用户。

1.2 选择建议

个人开发者：优先选择Google或AssemblyAI，无需本地部署，API调用简单。
隐私敏感项目：Vosk离线模型可完全控制数据，避免云端传输风险。
企业轻量级应用：Azure免费额度可覆盖初期需求，但需评估长期成本。

二、Python环境准备与依赖安装

2.1 基础环境配置

使用Python 3.8+版本，推荐通过虚拟环境管理依赖：

python -m venv asr_env
source asr_env/bin/activate  # Linux/macOS
asr_env\Scripts\activate     # Windows

2.2 核心依赖安装

requests库：用于HTTP API调用
```
pip install requests
```
WebRTC VAD（可选）：语音活动检测，过滤无效音频段
```
pip install webrtcvad
```
pydub：音频格式转换（如WAV转FLAC）
```
pip install pydub
```
需额外安装ffmpeg（通过系统包管理器或下载静态文件）。

三、Google Speech-to-Text免费层接入

3.1 获取API密钥

登录Google Cloud Console。
创建项目并启用Speech-to-Text API。
生成API密钥（需注意安全存储，避免泄露）。

3.2 代码实现

import requests
import json
def google_asr(audio_path, api_key):
    url = "https://speech.googleapis.com/v1/speech:recognize?key=" + api_key
    headers = {"Content-Type": "application/json"}
    # 读取音频文件（需为FLAC格式，16000Hz采样率）
    with open(audio_path, "rb") as f:
        audio_data = f.read()
    # 构造请求体
    payload = {
        "config": {
            "encoding": "FLAC",
            "sampleRateHertz": 16000,
            "languageCode": "zh-CN"  # 中文普通话
        },
        "audio": {"content": base64.b64encode(audio_data).decode("utf-8")}
    }
    response = requests.post(url, headers=headers, data=json.dumps(payload))
    return response.json()
# 示例调用
result = google_asr("test.flac", "YOUR_API_KEY")
print(result["results"][0]["alternatives"][0]["transcript"])

3.3 关键优化

音频预处理：使用pydub统一格式与采样率
```python
from pydub import AudioSegment

def convert_to_flac(input_path, output_path):
audio = AudioSegment.from_file(input_path)
audio = audio.set_frame_rate(16000).set_channels(1)
audio.export(output_path, format=”flac”)

- **错误处理**：捕获API限额错误（HTTP 429）并实现重试机制。
### 四、AssemblyAI免费计划接入
#### 4.1 注册与API令牌获取
1. 访问AssemblyAI官网，注册免费账户。
2. 在控制台生成API令牌（Token）。
#### 4.2 实时流式处理示例
```python
import requests
import json
def assemblyai_stream(audio_stream, token):
    url = "https://api.assemblyai.com/v2/stream"
    headers = {
        "authorization": token,
        "content-type": "audio/x-raw",
        "transfer-encoding": "chunked"
    }
    # 分块发送音频数据（示例为伪代码）
    for chunk in audio_stream:
        requests.post(url, headers=headers, data=chunk)
    # 获取最终转录结果（需记录转录ID）
    transcription_url = f"https://api.assemblyai.com/v2/transcript/{transcript_id}"
    response = requests.get(transcription_url, headers={"authorization": token})
    return response.json()["text"]

4.3 适用场景

实时会议记录：通过WebSocket实现低延迟转录。
长音频处理：免费层支持最长2小时音频，优于Google的1分钟限制。

五、Vosk离线模型部署

5.1 模型下载与配置

从Vosk官网下载中文模型（如vosk-model-small-cn-0.3）。
解压后指定模型路径：
```python
from vosk import Model, KaldiRecognizer

model = Model(“path/to/vosk-model-small-cn-0.3”)
recognizer = KaldiRecognizer(model, 16000)


#### 5.2 实时识别实现
```python
import pyaudio
def vosk_realtime():
    p = pyaudio.PyAudio()
    stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True)
    while True:
        data = stream.read(4000)  # 每次读取4000字节（约0.25秒）
        if recognizer.AcceptWaveForm(data):
            result = json.loads(recognizer.Result())
            print(result["text"])
# 示例调用
vosk_realtime()

5.3 优势与局限

优势：零云端依赖，适合隐私敏感场景。
局限：模型准确率略低于云端API，需定期更新模型。

六、常见问题与解决方案

6.1 音频格式错误

问题：API返回INVALID_AUDIO错误。
解决：使用pydub统一转换为FLAC/WAV，16000Hz单声道。

6.2 免费额度超限

问题：Google/Azure返回429错误。
解决：
- 缓存常用音频的转录结果。
- 切换至AssemblyAI或Vosk。
- 申请额度提升（需提供使用场景说明）。

6.3 中文识别准确率优化

技巧：
- 在API请求中指定languageCode="zh-CN"。
- 使用领域适配模型（如AssemblyAI的“电话”场景模型）。
- 结合NLP后处理修正专有名词（如人名、地名）。

七、进阶建议

多API融合：根据音频长度动态选择API（如短音频用Google，长音频用AssemblyAI）。
性能监控：记录API响应时间与准确率，生成可视化报告。
容器化部署：使用Docker封装依赖，便于跨环境迁移。

通过以上方案，开发者可在零成本前提下，快速构建高可用的语音识别功能，覆盖从个人项目到企业级应用的多种场景。