Python调用百度语音识别API全攻略：从入门到实战

一、技术背景与价值

随着人工智能技术的普及，语音识别已成为人机交互的核心环节。百度语音识别API凭借其高准确率（短语音识别准确率达98%以上）、多场景支持（支持中英文混合、方言识别）和低延迟特性，成为开发者实现语音转文字功能的优选方案。通过Python调用该API，开发者可快速构建智能客服、语音笔记、会议纪要生成等应用，显著提升开发效率。

二、环境准备与依赖安装

1. 注册百度智能云账号

访问百度智能云官网，完成实名认证并开通“语音识别”服务。创建应用后，获取API Key和Secret Key，这是调用API的唯一凭证。

2. 安装Python依赖库

推荐使用requests库发送HTTP请求，安装命令：

pip install requests

若需处理音频文件，可额外安装pydub（音频格式转换）和ffmpeg（音频解码）：

pip install pydub
# 需单独安装ffmpeg（官网下载或通过包管理器安装）

三、API调用流程详解

1. 获取Access Token

百度API采用OAuth2.0认证机制，需通过API Key和Secret Key获取临时令牌（有效期30天）。代码示例：

import requests
import base64
import hashlib
import json
def get_access_token(api_key, secret_key):
    auth_url = f"https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={api_key}&client_secret={secret_key}"
    response = requests.get(auth_url)
    return response.json().get("access_token")

关键点：

令牌过期后需重新获取，建议缓存令牌并设置定时刷新。
避免硬编码密钥，推荐通过环境变量或配置文件管理。

2. 音频文件预处理

百度语音识别API支持以下格式：

短语音识别：WAV（16bit/16kHz/单声道）、PCM、AMR、MP3，时长≤60秒。
长语音识别：支持更长时间音频，需分块上传。

使用pydub转换音频格式示例：

from pydub import AudioSegment
def convert_to_wav(input_path, output_path):
    audio = AudioSegment.from_file(input_path)
    audio.export(output_path, format="wav", bitrate="16k", parameters=["-ac", "1"])  # 单声道

优化建议：

采样率统一为16kHz，避免因采样率不匹配导致识别失败。
压缩音频文件大小（如MP3转PCM），减少网络传输时间。

3. 发起识别请求

短语音识别（同步接口）

适用于实时性要求高的场景（如语音指令）。代码示例：

def short_speech_recognition(access_token, audio_path):
    speech_url = f"https://aip.baidubce.com/rpc/2.0/speech/v1/recognise?access_token={access_token}"
    # 读取音频文件（二进制）
    with open(audio_path, "rb") as f:
        audio_data = f.read()
    headers = {"Content-Type": "application/x-www-form-urlencoded"}
    data = {
        "format": "wav",
        "rate": 16000,
        "channel": 1,
        "cuid": "your_device_id",  # 唯一设备标识
        "len": len(audio_data),
        "speech": base64.b64encode(audio_data).decode("utf-8")
    }
    response = requests.post(speech_url, data=data, headers=headers)
    return response.json()

参数说明：

format：音频格式（必须与实际文件一致）。
rate：采样率（16000Hz）。
channel：声道数（1为单声道）。

长语音识别（异步接口）

适用于会议录音、访谈等长音频。需先上传音频文件获取任务ID，再轮询结果。代码示例：

def long_speech_recognition(access_token, audio_path):
    # 1. 上传音频获取任务ID
    upload_url = f"https://aip.baidubce.com/rpc/2.0/speech/v1/create?access_token={access_token}"
    with open(audio_path, "rb") as f:
        audio_data = f.read()
    upload_data = {
        "format": "wav",
        "rate": 16000,
        "channel": 1,
        "cuid": "your_device_id",
        "speech": base64.b64encode(audio_data).decode("utf-8")
    }
    upload_response = requests.post(upload_url, data=upload_data)
    task_id = upload_response.json().get("result")[0].get("task_id")
    # 2. 轮询查询结果
    query_url = f"https://aip.baidubce.com/rpc/2.0/speech/v1/query?access_token={access_token}"
    while True:
        query_data = {"task_id": task_id}
        result = requests.post(query_url, data=query_data).json()
        if result.get("result"):
            return result["result"][0]  # 返回识别结果
        time.sleep(1)  # 间隔1秒轮询

四、错误处理与优化

1. 常见错误及解决方案

401 Unauthorized：Access Token过期或无效，需重新获取。
413 Request Entity Too Large：音频文件过大，需压缩或分块上传。
500 Internal Server Error：服务器异常，建议实现重试机制。

2. 性能优化建议

批量处理：对多段短音频，可合并为长音频减少请求次数。
异步处理：长语音识别使用异步接口，避免阻塞主线程。
日志记录：记录请求参数、响应时间及错误信息，便于调试。

五、完整代码示例

import requests
import base64
import time
from pydub import AudioSegment
class BaiduASR:
    def __init__(self, api_key, secret_key):
        self.api_key = api_key
        self.secret_key = secret_key
        self.access_token = None
        self.token_expire_time = 0
    def get_access_token(self):
        if time.time() < self.token_expire_time - 300:  # 提前5分钟刷新
            return self.access_token
        auth_url = f"https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={self.api_key}&client_secret={self.secret_key}"
        response = requests.get(auth_url)
        data = response.json()
        self.access_token = data["access_token"]
        self.token_expire_time = time.time() + data["expires_in"]
        return self.access_token
    def short_recognize(self, audio_path):
        token = self.get_access_token()
        url = f"https://aip.baidubce.com/rpc/2.0/speech/v1/recognise?access_token={token}"
        with open(audio_path, "rb") as f:
            audio_data = f.read()
        data = {
            "format": "wav",
            "rate": 16000,
            "channel": 1,
            "cuid": "python_client",
            "len": len(audio_data),
            "speech": base64.b64encode(audio_data).decode("utf-8")
        }
        response = requests.post(url, data=data)
        return response.json()
# 使用示例
if __name__ == "__main__":
    asr = BaiduASR("your_api_key", "your_secret_key")
    result = asr.short_recognize("test.wav")
    print("识别结果:", result)

六、总结与展望

通过Python调用百度语音识别API，开发者可快速实现高精度的语音转文字功能。关键步骤包括：

获取Access Token并管理其生命周期。
预处理音频文件（格式、采样率、声道）。
根据场景选择同步或异步接口。
实现错误处理和性能优化。

未来，随着语音识别技术的演进，百度API可能支持更多语言、更低延迟和更高并发。开发者应持续关注百度智能云文档，及时升级调用方式。