百度短语音识别API：JavaScript调用全流程指南

一、百度短语音识别API概述

百度短语音识别API是百度智能云提供的语音转文字服务，支持实时或离线语音输入，将音频数据转换为文本内容。其核心优势在于高精度识别（支持中文、英文及中英文混合）、低延迟响应（通常<1秒）和灵活的调用方式。通过JavaScript调用，开发者可在网页端直接实现语音交互功能，无需依赖后端服务，显著降低开发成本。

1.1 应用场景

智能客服：用户通过语音输入问题，系统实时返回文字答案。
语音输入：替代传统键盘输入，提升移动端输入效率。
教育辅助：语音转文字用于课堂笔记或外语学习。
物联网设备：通过语音控制智能家居设备。

1.2 技术特点

支持格式：WAV、PCM、AMR、SPEEX等常见音频格式。
识别模式：实时流式识别（边录音边识别）和一次性识别（录音完成后识别）。
语言模型：内置通用模型，支持行业定制模型（如医疗、法律）。

二、JavaScript调用前的准备工作

2.1 获取API密钥

登录百度智能云控制台。
创建或选择项目，启用“短语音识别”服务。
在“API管理”中生成AccessKey ID和Secret AccessKey。

2.2 配置环境

浏览器支持：现代浏览器（Chrome、Firefox、Edge等）。
网络要求：需连接互联网（实时识别依赖云端服务）。
权限设置：确保网页可访问麦克风（HTTPS环境下自动允许）。

三、JavaScript调用实现步骤

3.1 基础代码框架

// 1. 引入SDK（百度提供JavaScript SDK或直接调用REST API）
// 示例使用原生Fetch API调用REST接口
async function recognizeSpeech(audioData) {
  const apiKey = 'YOUR_API_KEY';
  const token = await getAccessToken(); // 获取访问令牌
  const url = `https://vop.baidu.com/server_api?cuid=YOUR_DEVICE_ID&token=${token}`;
  const response = await fetch(url, {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      format: 'wav',
      rate: 16000,
      channel: 1,
      token: token,
      cuid: 'YOUR_DEVICE_ID',
      speech: audioData.toString('base64'), // 音频需转为Base64
      len: audioData.length
    })
  });
  const result = await response.json();
  return result.result[0]; // 返回识别文本
}

3.2 关键参数说明

参数	说明	示例值
`format`	音频格式	`wav`、`pcm`
`rate`	采样率（Hz）	`8000`、`16000`
`channel`	声道数	`1`（单声道）
`speech`	音频数据（Base64编码）	-
`len`	音频长度（字节）	`音频数据.length`

3.3 完整流程示例

// 1. 录制音频
async function recordAudio() {
  const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
  const mediaRecorder = new MediaRecorder(stream, { mimeType: 'audio/wav' });
  const chunks = [];
  mediaRecorder.ondataavailable = e => chunks.push(e.data);
  mediaRecorder.start();
  // 录制3秒后停止
  setTimeout(() => {
    mediaRecorder.stop();
    stream.getTracks().forEach(track => track.stop());
  }, 3000);
  return new Promise(resolve => {
    mediaRecorder.onstop = () => {
      const blob = new Blob(chunks, { type: 'audio/wav' });
      resolve(blob);
    };
  });
}
// 2. 调用识别API
async function main() {
  const audioBlob = await recordAudio();
  const arrayBuffer = await audioBlob.arrayBuffer();
  const audioData = new Uint8Array(arrayBuffer);
  const text = await recognizeSpeech(audioData);
  console.log('识别结果:', text);
}
main();

四、常见问题与解决方案

4.1 错误处理

错误码403：Token无效或过期。
- 解决：重新生成Token，确保AccessKey未泄露。
错误码500：服务器内部错误。
- 解决：检查音频格式是否符合要求，采样率是否匹配。
无音频输入：浏览器未授权麦克风。
- 解决：确保网页通过HTTPS加载，或用户手动授权麦克风。

4.2 性能优化

压缩音频：使用Opus编码减少数据量。
分片传输：长音频拆分为多个请求，避免单次请求过大。
缓存Token：Token有效期为30天，可本地存储避免重复获取。

五、高级功能扩展

5.1 实时流式识别

通过WebSocket实现边录音边识别：

const socket = new WebSocket('wss://vop.baidu.com/ws_api');
socket.onopen = () => {
  socket.send(JSON.stringify({
    format: 'wav',
    rate: 16000,
    token: 'YOUR_TOKEN',
    cuid: 'YOUR_DEVICE_ID'
  }));
};
// 持续发送音频分片
setInterval(() => {
  if (audioChunks.length > 0) {
    socket.send(audioChunks.shift());
  }
}, 100);
socket.onmessage = e => {
  const result = JSON.parse(e.data);
  console.log('实时结果:', result.result);
};

5.2 多语言支持

在请求头中指定language参数：

body: JSON.stringify({
  language: 'en-US', // 英文识别
  // 其他参数...
})

六、总结与建议

测试环境：开发阶段使用百度提供的沙箱环境，避免消耗正式配额。
安全策略：Token和密钥需通过后端服务动态获取，避免前端硬编码。
监控指标：关注API调用次数、识别准确率等数据，优化用户体验。

通过本文的指导，开发者可快速实现百度短语音识别API的JavaScript调用，为项目增添高效的语音交互能力。