第14章：Python实现AI语言识别——百度语音API调用全解析

一、语言识别与人工智能的关联

语言识别（Speech Recognition）是人工智能领域的重要分支，旨在将人类语音转换为可读的文本形式。随着深度学习技术的发展，基于神经网络的语音识别模型（如LSTM、Transformer）显著提升了识别准确率。Python作为AI开发的主流语言，凭借其丰富的库（如pyaudio、wave）和简洁的语法，成为调用第三方语音API的首选工具。百度语音识别API作为国内领先的语音服务，提供了高精度、低延迟的语音转文本能力，支持实时流式识别和离线文件识别两种模式。

二、调用百度语音识别API的前置条件

1. 环境准备

Python版本：建议使用Python 3.7及以上版本，确保兼容性。
依赖库：
- requests：用于发送HTTP请求。
- json：处理API返回的JSON数据。
- pyaudio（可选）：若需录制音频，需安装此库。
  安装命令：
```
pip install requests pyaudio
```

2. 获取API密钥

登录百度智能云控制台。
创建应用并选择“语音识别”服务，获取API Key和Secret Key。
启用“语音识别”服务，并确保账户余额充足（免费额度有限）。

三、百度语音识别API的核心参数

1. 请求方式

URL：https://vop.baidu.com/server_api（短语音识别）。
方法：POST，需上传音频文件和配置参数。

2. 关键参数

参数名	类型	说明
`format`	string	音频格式（如`wav`、`pcm`）。
`rate`	int	采样率（16000或8000）。
`channel`	int	声道数（1为单声道）。
`cuid`	string	客户端唯一标识（如设备MAC）。
`token`	string	通过API Key和Secret Key生成。
`speech`	file	音频文件二进制数据。

3. Token生成

使用API Key和Secret Key通过HMAC-SHA256算法生成access_token，示例代码：

import hashlib
import base64
import urllib.parse
def generate_token(api_key, secret_key):
    # 时间戳（秒级）
    timestamp = str(int(time.time()))
    # 拼接字符串
    raw_str = api_key + timestamp + secret_key
    # HMAC-SHA256加密
    hmac_code = hashlib.sha256(raw_str.encode('utf-8')).hexdigest()
    # Base64编码
    token = base64.b64encode(hmac_code.encode('utf-8')).decode('utf-8')
    return token

四、Python调用API的完整代码实现

1. 离线文件识别

import requests
import json
import base64
import time
def baidu_asr(audio_path, api_key, secret_key):
    # 生成Token
    timestamp = str(int(time.time()))
    raw_str = api_key + timestamp + secret_key
    hmac_code = hashlib.sha256(raw_str.encode('utf-8')).hexdigest()
    token = base64.b64encode(hmac_code.encode('utf-8')).decode('utf-8')
    # 读取音频文件（PCM格式，16kHz，16bit，单声道）
    with open(audio_path, 'rb') as f:
        speech_data = base64.b64encode(f.read()).decode('utf-8')
    # 请求参数
    params = {
        'format': 'wav',
        'rate': 16000,
        'channel': 1,
        'cuid': 'your_device_id',
        'token': token,
        'speech': speech_data,
        'len': len(speech_data)
    }
    # 发送请求
    url = 'https://vop.baidu.com/server_api'
    headers = {'Content-Type': 'application/json'}
    response = requests.post(url, data=json.dumps(params), headers=headers)
    result = response.json()
    # 解析结果
    if result['err_no'] == 0:
        return result['result'][0]
    else:
        raise Exception(f"Error: {result['err_msg']}")
# 调用示例
api_key = 'your_api_key'
secret_key = 'your_secret_key'
audio_path = 'test.wav'
text = baidu_asr(audio_path, api_key, secret_key)
print("识别结果:", text)

2. 实时流式识别（WebSocket）

百度语音识别支持WebSocket协议实现实时识别，步骤如下：

建立WebSocket连接，发送认证信息。
分片发送音频数据（每片约200ms）。
接收服务端返回的增量识别结果。
连接关闭时获取最终结果。

五、优化建议与常见问题

1. 音频预处理

降噪：使用noisereduce库去除背景噪音。
格式转换：通过ffmpeg将MP3转换为PCM格式。
采样率调整：确保音频采样率为16kHz（百度API推荐值）。

2. 错误处理

网络超时：设置requests的超时参数（如timeout=10）。
API限流：控制请求频率，避免触发QPS限制。
结果校验：检查err_no字段，处理异常情况。

3. 性能优化

批量处理：将多个短音频合并为一个长音频，减少请求次数。
异步调用：使用asyncio实现非阻塞请求，提升吞吐量。

六、应用场景与扩展

智能客服：实时转录用户语音，自动分类问题。
会议记录：将会议音频转换为文字稿，支持关键词检索。
教育领域：语音答题系统，自动评分与反馈。
无障碍设计：为听障用户提供语音转文字服务。

七、总结

通过Python调用百度语音识别API，开发者可以快速集成高精度的语音转文本功能。关键步骤包括：环境配置、API密钥管理、音频预处理、请求参数构造及结果解析。未来可结合NLP技术（如情感分析、实体识别）进一步挖掘语音数据的价值。建议开发者参考百度语音识别官方文档获取最新功能更新。