Vue3集成语音识别：百度API实现录音转文字全流程

在智能办公、语音交互等场景中，将语音实时转换为文字的需求日益普遍。本文基于Vue3框架，结合主流云服务商的语音识别API，实现长按录音实时转文字及上传音频文件转换的完整功能。通过模块化设计，开发者可快速集成语音识别能力，提升应用交互体验。

一、技术架构设计

1.1 整体流程

系统分为录音采集、音频传输、API调用、结果展示四个核心模块：

录音模块：通过浏览器MediaRecorder API捕获音频流
传输模块：支持实时流式传输与文件分块上传两种模式
API对接层：封装百度智能云语音识别SDK的调用逻辑
结果处理层：处理识别结果并更新前端界面

1.2 关键技术选型

录音库：使用原生Web API（MediaRecorder）实现跨浏览器兼容
流式处理：采用WebSocket协议传输实时音频数据
API封装：基于Promise的异步调用模式，统一错误处理

二、核心功能实现

2.1 录音组件开发

录音权限管理

// 检查浏览器录音权限
async function checkPermission() {
  try {
    const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
    stream.getTracks().forEach(track => track.stop());
    return true;
  } catch (err) {
    console.error('录音权限获取失败:', err);
    return false;
  }
}

长按录音实现

<template>
  <div 
    @mousedown="startRecord" 
    @mouseup="stopRecord"
    @mouseleave="cancelRecord"
    class="record-btn"
  >
    长按录音
  </div>
</template>
<script setup>
let mediaRecorder;
let audioChunks = [];
const startRecord = async () => {
  if (!await checkPermission()) return;
  const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
  mediaRecorder = new MediaRecorder(stream);
  mediaRecorder.ondataavailable = (event) => {
    audioChunks.push(event.data);
  };
  mediaRecorder.start(100); // 每100ms收集一次数据
};
const stopRecord = () => {
  if (!mediaRecorder) return;
  mediaRecorder.stop();
  mediaRecorder.stream.getTracks().forEach(track => track.stop());
  // 处理录音数据
  const audioBlob = new Blob(audioChunks, { type: 'audio/wav' });
  processAudio(audioBlob);
  audioChunks = [];
};
</script>

2.2 百度智能云API集成

初始化配置

// config.js
export const ASR_CONFIG = {
  apiKey: 'your-api-key',
  secretKey: 'your-secret-key',
  endpoint: 'https://aip.baidubce.com/rpc/2.0/asr/v1/recognize'
};
// 生成访问令牌
export async function getAccessToken() {
  const authUrl = `https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=${ASR_CONFIG.apiKey}&client_secret=${ASR_CONFIG.secretKey}`;
  const response = await fetch(authUrl);
  const data = await response.json();
  return data.access_token;
}

实时流式识别

async function streamRecognize(audioStream) {
  const accessToken = await getAccessToken();
  const wsUrl = `wss://vop.baidu.com/ws_async?token=${accessToken}`;
  const ws = new WebSocket(wsUrl);
  let isFirstFrame = true;
  ws.onopen = () => {
    // 发送配置信息
    const config = {
      format: 'wav',
      rate: 16000,
      channel: 1,
      cuid: 'your-device-id',
      token: accessToken
    };
    ws.send(JSON.stringify({...config, type: 'START'}));
  };
  ws.onmessage = (event) => {
    const data = JSON.parse(event.data);
    if (data.result) {
      emit('text-update', data.result.join(''));
    }
  };
  // 创建可读流处理
  const reader = audioStream.getReader();
  const processStream = async () => {
    const { done, value } = await reader.read();
    if (done) {
      ws.send(JSON.stringify({type: 'END'}));
      return;
    }
    ws.send(value);
    await processStream();
  };
  processStream();
}

2.3 文件上传识别

async function uploadRecognize(audioFile) {
  const accessToken = await getAccessToken();
  const formData = new FormData();
  formData.append('audio', audioFile);
  formData.append('format', 'wav');
  formData.append('rate', 16000);
  formData.append('channel', 1);
  formData.append('token', accessToken);
  const response = await fetch(ASR_CONFIG.endpoint, {
    method: 'POST',
    body: formData
  });
  const result = await response.json();
  return result.result.join('');
}

三、性能优化与最佳实践

3.1 录音质量优化

采样率设置：推荐16kHz采样率，平衡音质与数据量
编码格式：优先选择PCM或WAV格式，避免有损压缩
分块处理：每100ms处理一次音频数据，减少内存占用

3.2 API调用优化

连接复用：保持WebSocket长连接，避免频繁重连
错误重试：实现指数退避重试机制
并发控制：限制同时进行的识别请求数量

3.3 用户体验优化

进度反馈：显示录音时长与识别进度
结果缓存：本地缓存最近识别结果
断点续传：支持大文件分片上传

四、完整组件实现

<template>
  <div class="asr-container">
    <div 
      class="record-btn"
      @mousedown="startRecord"
      @mouseup="stopRecord"
      @mouseleave="cancelRecord"
    >
      {{ isRecording ? '松开结束' : '长按录音' }}
    </div>
    <div class="upload-area" @click="triggerUpload">
      <input 
        type="file" 
        ref="fileInput" 
        @change="handleFileUpload" 
        accept="audio/*" 
        style="display: none"
      >
      或上传音频文件
    </div>
    <div class="result-box">
      <div v-for="(line, index) in resultLines" :key="index" class="result-line">
        {{ line }}
      </div>
    </div>
  </div>
</template>
<script setup>
import { ref } from 'vue';
import { ASR_CONFIG, getAccessToken } from './config';
const isRecording = ref(false);
const resultLines = ref([]);
const fileInput = ref(null);
let mediaRecorder;
let audioChunks = [];
let currentStream;
const startRecord = async () => {
  if (!await checkPermission()) return;
  isRecording.value = true;
  currentStream = await navigator.mediaDevices.getUserMedia({ audio: true });
  mediaRecorder = new MediaRecorder(currentStream, {
    mimeType: 'audio/wav',
    audioBitsPerSecond: 256000
  });
  mediaRecorder.ondataavailable = (event) => {
    audioChunks.push(event.data);
  };
  mediaRecorder.start(100);
};
const stopRecord = async () => {
  if (!mediaRecorder) return;
  mediaRecorder.stop();
  mediaRecorder.stream.getTracks().forEach(track => track.stop());
  isRecording.value = false;
  const audioBlob = new Blob(audioChunks, { type: 'audio/wav' });
  const result = await uploadRecognize(audioBlob);
  resultLines.value.push(result);
  audioChunks = [];
};
const triggerUpload = () => {
  fileInput.value.click();
};
const handleFileUpload = async (event) => {
  const file = event.target.files[0];
  if (!file) return;
  const result = await uploadRecognize(file);
  resultLines.value.push(result);
};
</script>

五、安全与合规考虑

数据传输安全：确保所有音频数据通过HTTPS/WSS加密传输
隐私保护：明确告知用户数据使用范围，提供隐私政策链接
权限管理：遵循最小权限原则，仅请求必要的麦克风权限
日志脱敏：避免在前端记录原始音频或敏感识别结果

六、扩展功能建议

多语言支持：通过API参数切换识别语言类型
标点预测：启用百度API的标点符号预测功能
热词优化：上传行业术语表提升专业词汇识别率
实时纠错：结合NLP模型实现识别结果后处理

通过本文实现的方案，开发者可在Vue3项目中快速集成语音识别能力。实际开发中，建议根据业务场景调整参数配置，并建立完善的错误处理机制。对于高并发场景，可考虑引入消息队列缓冲请求，确保系统稳定性。