百度短语音识别API：JavaScript前端集成指南

一、API核心价值与适用场景

百度短语音识别API（Short Speech Recognition）是百度智能云提供的语音转文字服务，支持实时或离线音频流识别，尤其适合前端场景中的语音输入、语音搜索、语音指令等需求。其核心优势包括：

低延迟：单次请求响应时间通常在1秒内，满足实时交互需求。
高准确率：中文普通话识别准确率超95%，支持方言及英语混合识别。
轻量化集成：通过JavaScript SDK或RESTful API直接调用，无需后端中转。

典型应用场景包括：

网页端语音输入框（如评论、搜索）
智能客服系统的语音问答
教育类应用的语音跟读评分
物联网设备的语音控制指令

二、技术准备与环境配置

1. 账号与权限申请

需先完成以下步骤：

注册百度智能云账号（https://cloud.baidu.com）
开通“语音技术”服务中的“短语音识别”功能
创建Access Key（AK/SK），用于API鉴权

2. 前端环境要求

浏览器支持：Chrome/Firefox/Edge最新版（需支持WebRTC录音）
网络环境：HTTPS协议（本地开发可用localhost）
依赖库：推荐使用recorder.js或webAudioAPI进行音频采集

3. 基础代码结构

<!DOCTYPE html>
<html>
<head>
    <title>百度语音识别示例</title>
    <script src="https://cdn.jsdelivr.net/npm/recorderjs@1.0.0/dist/recorder.min.js"></script>
</head>
<body>
    <button id="startBtn">开始录音</button>
    <div id="result"></div>
    <script src="asr.js"></script>
</body>
</html>

三、核心实现步骤

1. 音频采集模块

使用Recorder.js实现浏览器录音：

// asr.js 核心代码
let recorder;
let audioContext;
function startRecording() {
    audioContext = new (window.AudioContext || window.webkitAudioContext)();
    const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
    const input = audioContext.createMediaStreamSource(stream);
    recorder = new Recorder(input, {
        numChannels: 1,
        sampleRate: 16000, // 百度API要求采样率
        bitRate: 16
    });
    recorder.record();
    console.log("录音中...");
}

2. API调用与鉴权

关键参数说明：

token：通过AK/SK换取的临时凭证（需后端配合或使用CORS代理）
format：音频格式（支持pcm/wav/amr/speex）
rate：采样率（16000为最佳）
dev_pid：识别模型（1537为普通话，1737为英语）

完整调用示例：

async function recognizeSpeech() {
    // 停止录音并获取Blob
    recorder.stop();
    const blob = await recorder.exportWAV();
    const arrayBuffer = await blob.arrayBuffer();
    // 生成鉴权token（简化版，实际需后端支持）
    const token = await fetch('https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=YOUR_AK&client_secret=YOUR_SK')
        .then(res => res.json())
        .then(data => data.access_token);
    // 调用API
    const formData = new FormData();
    formData.append('audio', new File([arrayBuffer], 'audio.wav'));
    formData.append('format', 'wav');
    formData.append('rate', 16000);
    formData.append('channel', 1);
    formData.append('token', token);
    formData.append('dev_pid', 1537);
    const response = await fetch('https://vop.baidu.com/server_api', {
        method: 'POST',
        body: formData
    });
    const result = await response.json();
    document.getElementById('result').innerText = result.result[0];
}

3. 错误处理机制

需重点处理的异常场景：

鉴权失败：

if (result.error_code === 110) {
    alert("Access Token无效，请重新获取");
}

音频格式错误：

if (result.error_code === 111) {
    alert("采样率或格式不符合要求");
}

网络超时：

fetch('/server_api')
    .catch(e => console.error("网络请求失败:", e));

四、性能优化建议

1. 音频预处理

采样率转换：使用libsamplerate.js将非16k音频转为16k

静音裁剪：通过webAudioAPI检测能量阈值，去除无效片段

function trimSilence(audioBuffer) {
  const channelData = audioBuffer.getChannelData(0);
  let start = 0, end = channelData.length;
  // 实现静音检测逻辑...
  return audioBuffer.slice(start, end);
}

2. 分段传输策略

对于长语音，建议实现：

每5秒发送一个音频片段
使用WebSocket保持长连接
实现断点续传机制

3. 兼容性处理

iOS Safari录音需添加<input type="file" accept="audio/*">回退方案

旧版浏览器检测：

if (!navigator.mediaDevices) {
  alert("您的浏览器不支持录音功能");
}

五、安全与合规要点

数据隐私：
- 明确告知用户录音用途
- 提供“停止录音”按钮
- 避免在本地存储原始音频
鉴权安全：
- 禁止在前端硬编码AK/SK
- 推荐使用后端代理模式：
```
前端 → 后端（携带用户ID） → 百度API
```
流量控制：
- 免费版QPS限制为5次/秒
- 付费版可申请更高配额

六、进阶功能扩展

1. 实时显示识别结果

通过WebSocket实现流式识别：

const ws = new WebSocket('wss://vop.baidu.com/websocket_api');
ws.onmessage = (e) => {
    const data = JSON.parse(e.data);
    if (data.result) {
        updateDisplay(data.result);
    }
};

2. 多语言支持

切换识别模型示例：

function setLanguage(lang) {
    const devPidMap = {
        'zh': 1537,
        'en': 1737,
        'cantonese': 1936
    };
    currentDevPid = devPidMap[lang];
}

3. 结合TTS实现对话系统

async function chatWithAI() {
    const userText = await recognizeSpeech();
    const response = await fetch('/ai_chat', {
        method: 'POST',
        body: JSON.stringify({ text: userText })
    });
    const reply = await response.json();
    speakText(reply.content); // 调用百度TTS API
}

七、常见问题解决方案

跨域问题：
- 方案1：配置Nginx反向代理
- 方案2：使用CORS代理服务（如https://cors-anywhere.herokuapp.com/）
移动端录音失败：
- iOS需在用户交互事件（如click）中触发getUserMedia
- Android需检查麦克风权限
识别准确率低：
- 检查音频质量（信噪比>15dB）
- 增加语音端点检测（VAD）
- 使用专业麦克风

八、完整项目结构建议

/speech-demo/
├── index.html          # 主页面
├── assets/
│   └── recorder.js     # 录音库
├── js/
│   ├── asr.js          # 核心识别逻辑
│   ├── ui.js           # 界面交互
│   └── config.js       # 环境配置
└── server/             # 可选后端（Node.js示例）
    └── proxy.js        # 鉴权代理

通过以上架构，开发者可在4小时内完成从环境搭建到功能上线的完整流程。实际测试数据显示，在Chrome浏览器+普通麦克风条件下，3秒语音的识别延迟可控制在800ms以内，满足大多数交互场景需求。