引言

在人工智能技术快速发展的今天，语音识别已成为人机交互的重要方式之一。百度短语音识别API凭借其高准确率、低延迟和易用性，成为开发者实现语音转文字功能的首选工具。本文将深入探讨如何通过JavaScript调用百度短语音识别API，从基础概念到实战代码，为开发者提供一份完整的指南。

一、百度短语音识别API概述

1.1 API特性

百度短语音识别API专为短语音场景设计，支持实时语音转文字，适用于语音搜索、语音指令、语音笔记等场景。其核心特性包括：

高准确率：基于深度学习算法，识别准确率高达95%以上。
低延迟：响应时间短，适合实时交互场景。
多语言支持：支持中文、英文及中英文混合识别。
格式兼容：支持WAV、MP3、AMR等常见音频格式。

1.2 适用场景

移动应用：语音搜索、语音输入。
智能硬件：语音控制设备、语音助手。
Web应用：语音笔记、语音客服。

二、JavaScript调用前的准备工作

2.1 获取API Key和Secret Key

在调用百度短语音识别API前，需在百度智能云平台注册账号并创建应用，获取API Key和Secret Key。这两个密钥是调用API的唯一凭证，需妥善保管。

2.2 安装必要的库

JavaScript调用百度短语音识别API通常需借助axios或fetch进行HTTP请求，同时可能需要crypto-js库进行签名计算。可通过npm安装：

npm install axios crypto-js

2.3 音频采集与预处理

调用API前，需通过浏览器MediaRecorder API或第三方库采集音频数据，并转换为API支持的格式（如WAV）。示例代码：

// 采集音频并转换为WAV格式（简化版）
async function recordAudio() {
  const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
  const mediaRecorder = new MediaRecorder(stream);
  const audioChunks = [];
  mediaRecorder.ondataavailable = event => {
    audioChunks.push(event.data);
  };
  mediaRecorder.onstop = () => {
    const audioBlob = new Blob(audioChunks, { type: 'audio/wav' });
    // 后续处理audioBlob
  };
  mediaRecorder.start();
  // 录制10秒后停止
  setTimeout(() => mediaRecorder.stop(), 10000);
}

三、JavaScript调用百度短语音识别API

3.1 生成访问令牌（Access Token）

调用API前需获取Access Token，有效期为30天。生成代码如下：

const CryptoJS = require('crypto-js');
const axios = require('axios');
async function getAccessToken(apiKey, secretKey) {
  const authUrl = `https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=${apiKey}&client_secret=${secretKey}`;
  const response = await axios.get(authUrl);
  return response.data.access_token;
}

3.2 构造API请求

百度短语音识别API支持两种调用方式：同步识别和异步识别。同步识别适用于短语音（<60秒），异步识别适用于长语音。

同步识别示例

async function recognizeSpeechSync(accessToken, audioBlob) {
  const audioBase64 = await blobToBase64(audioBlob); // 自定义函数，将Blob转为Base64
  const url = `https://vop.baidu.com/server_api?cuid=YOUR_DEVICE_ID&token=${accessToken}`;
  const speechData = {
    format: 'wav',
    rate: 16000, // 采样率
    channel: 1, // 单声道
    token: accessToken,
    cuid: 'YOUR_DEVICE_ID',
    speech: audioBase64,
    len: audioBlob.size
  };
  const response = await axios.post(url, speechData, {
    headers: { 'Content-Type': 'application/x-www-form-urlencoded' }
  });
  return response.data.result;
}

异步识别示例

async function recognizeSpeechAsync(accessToken, audioBlob) {
  const audioBase64 = await blobToBase64(audioBlob);
  const createUrl = `https://vop.baidu.com/pro_api?token=${accessToken}`;
  const createData = {
    format: 'wav',
    rate: 16000,
    channel: 1,
    token: accessToken,
    cuid: 'YOUR_DEVICE_ID',
    speech: audioBase64,
    len: audioBlob.size
  };
  // 1. 提交异步识别任务
  const createResponse = await axios.post(createUrl, createData, {
    headers: { 'Content-Type': 'application/x-www-form-urlencoded' }
  });
  const taskId = createResponse.data.result[0];
  // 2. 查询识别结果
  const queryUrl = `https://vop.baidu.com/pro_api?token=${accessToken}&task_id=${taskId}`;
  let result = '';
  while (true) {
    const queryResponse = await axios.get(queryUrl);
    if (queryResponse.data.result) {
      result = queryResponse.data.result;
      break;
    }
    await new Promise(resolve => setTimeout(resolve, 1000)); // 轮询间隔
  }
  return result;
}

3.3 处理识别结果

API返回的识别结果为JSON格式，包含result字段（识别文本）和error_code（错误码）。需检查错误码并处理异常：

async function processRecognition(accessToken, audioBlob) {
  try {
    const result = await recognizeSpeechSync(accessToken, audioBlob);
    if (result && result.length > 0) {
      console.log('识别结果:', result[0]);
    } else {
      console.log('未识别到有效文本');
    }
  } catch (error) {
    if (error.response && error.response.data) {
      console.error('API错误:', error.response.data.error_code, error.response.data.error_msg);
    } else {
      console.error('请求失败:', error.message);
    }
  }
}

四、优化与最佳实践

4.1 音频质量优化

采样率：建议使用16kHz采样率，兼容性最佳。
音频长度：同步识别限制为60秒，超长音频需分段处理。
降噪处理：使用Web Audio API或第三方库（如sox）进行降噪。

4.2 错误处理与重试机制

网络错误：捕获axios错误，实现指数退避重试。
API限流：检查返回的error_code（如110），控制请求频率。

4.3 性能优化

缓存Access Token：避免频繁请求Token。
分块上传：对于大音频文件，可分块上传并合并结果。

五、总结与展望

百度短语音识别API通过JavaScript调用，为Web应用和智能硬件提供了高效的语音转文字能力。本文从API特性、调用流程到代码实现，覆盖了开发者关心的核心问题。未来，随着语音技术的进步，API将支持更多语言和场景，开发者可持续关注百度智能云平台的更新。

通过本文的指导，开发者可快速集成百度短语音识别API，为用户提供更自然的交互体验。无论是移动应用、智能硬件还是Web服务，语音识别都将成为提升用户体验的关键技术。

百度短语音识别API：JavaScript调用全解析

引言