H5录音转文字全攻略：从Recorder API到ASR实现

一、H5录音技术基础与权限管理

H5环境下的录音功能依赖WebRTC的MediaRecorder API，其核心原理是通过浏览器获取麦克风输入流，并实时编码为音频数据。开发者需在调用前通过navigator.mediaDevices.getUserMedia({ audio: true })申请权限，这是实现录音的第一步。权限管理需处理用户拒绝授权的场景，建议通过try-catch捕获异常并引导用户手动开启权限。

关键代码示例：

async function startRecording() {
  try {
    const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
    const mediaRecorder = new MediaRecorder(stream);
    // 录音逻辑...
  } catch (err) {
    console.error('录音权限被拒绝:', err);
    alert('请允许麦克风权限以继续录音');
  }
}

录音格式选择：

MediaRecorder支持多种格式（如audio/wav、audio/webm），但需注意浏览器兼容性。例如，Chrome对audio/webm支持较好，而Safari可能需降级为audio/wav。建议通过特性检测动态选择格式：

const options = { mimeType: 'audio/webm' };
if (!MediaRecorder.isTypeSupported(options.mimeType)) {
  options.mimeType = 'audio/wav';
}

二、音频数据采集与处理

录音过程中，MediaRecorder通过dataavailable事件分块输出音频数据（Blob对象）。开发者需将这些数据暂存至数组，并在停止录音后合并为完整文件。此处需注意内存管理，避免长时间录音导致内存溢出。

完整录音流程：

let audioChunks = [];
function startRecording() {
  navigator.mediaDevices.getUserMedia({ audio: true })
    .then(stream => {
      const mediaRecorder = new MediaRecorder(stream, { mimeType: 'audio/webm' });
      mediaRecorder.ondataavailable = event => {
        if (event.data.size > 0) audioChunks.push(event.data);
      };
      mediaRecorder.start(100); // 每100ms触发一次dataavailable
      // 停止录音逻辑...
    });
}

音频合并与导出：

录音停止后，需将audioChunks合并为Blob并转换为可下载的URL：

function stopRecording() {
  mediaRecorder.stop();
  mediaRecorder.onstop = () => {
    const audioBlob = new Blob(audioChunks, { type: 'audio/webm' });
    const audioUrl = URL.createObjectURL(audioBlob);
    // 后续处理（如上传或转文字）...
  };
}

三、语音转文字技术方案对比

语音转文字（ASR）可通过两种方式实现：浏览器原生API与第三方服务。

1. 浏览器原生方案：Web Speech API

Chrome等浏览器支持SpeechRecognition接口，可实时转文字，但存在以下限制：

仅支持部分语言（如中文需额外配置）
依赖网络连接（部分浏览器需调用云端服务）
准确率受口音、背景噪音影响

const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
recognition.lang = 'zh-CN';
recognition.onresult = event => {
  const transcript = event.results[0][0].transcript;
  console.log('识别结果:', transcript);
};
recognition.start();

2. 第三方ASR服务

对于高精度需求，推荐集成专业ASR服务（如阿里云、腾讯云等）。流程包括：

上传音频文件至服务端
调用ASR接口获取文本
处理返回结果（如时间戳、分句等）

示例（伪代码）：

async function uploadAndTranscribe(audioBlob) {
  const formData = new FormData();
  formData.append('audio', audioBlob, 'recording.webm');
  const response = await fetch('/api/asr', { method: 'POST', body: formData });
  const result = await response.json();
  return result.text; // 返回识别文本
}

四、性能优化与兼容性处理

1. 录音质量优化

采样率：建议设置为16kHz（语音识别常用频率）
位深：16位足够满足需求
降噪：可通过Web Audio API实现前端降噪

const audioContext = new (window.AudioContext || window.webkitAudioContext)();
function processAudio(stream) {
  const source = audioContext.createMediaStreamSource(stream);
  const processor = audioContext.createScriptProcessor(4096, 1, 1);
  processor.onaudioprocess = e => {
    // 降噪算法实现...
  };
  source.connect(processor);
}

2. 浏览器兼容性

iOS Safari：需用户交互触发录音（如点击按钮）
旧版Edge：不支持MediaRecorder，需降级方案
移动端适配：横屏时需重新布局录音控件

五、完整实现示例

以下是一个结合录音与转文字的完整示例：

<!DOCTYPE html>
<html>
<head>
  <title>H5录音转文字</title>
</head>
<body>
  <button id="startBtn">开始录音</button>
  <button id="stopBtn" disabled>停止录音</button>
  <div id="result"></div>
  <script>
    let mediaRecorder, audioChunks = [];
    document.getElementById('startBtn').addEventListener('click', async () => {
      try {
        const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
        mediaRecorder = new MediaRecorder(stream, { mimeType: 'audio/webm' });
        mediaRecorder.ondataavailable = e => audioChunks.push(e.data);
        mediaRecorder.start(100);
        document.getElementById('stopBtn').disabled = false;
      } catch (err) {
        alert('录音失败:' + err.message);
      }
    });
    document.getElementById('stopBtn').addEventListener('click', async () => {
      mediaRecorder.stop();
      mediaRecorder.onstop = async () => {
        const audioBlob = new Blob(audioChunks, { type: 'audio/webm' });
        // 方案1：使用Web Speech API（仅演示）
        if (window.SpeechRecognition) {
          const recognition = new SpeechRecognition();
          recognition.lang = 'zh-CN';
          recognition.onresult = e => {
            document.getElementById('result').innerText = e.results[0][0].transcript;
          };
          recognition.start();
        } 
        // 方案2：上传至服务端（需替换为实际API）
        else {
          const formData = new FormData();
          formData.append('audio', audioBlob);
          const response = await fetch('/api/asr', { method: 'POST', body: formData });
          const result = await response.json();
          document.getElementById('result').innerText = result.text;
        }
      };
      audioChunks = [];
      document.getElementById('stopBtn').disabled = true;
    });
  </script>
</body>
</html>

六、总结与建议

权限前置：在页面加载时提示用户授权麦克风权限
多方案备份：同时实现Web Speech API和第三方ASR作为降级策略
移动端优化：针对微信等WebView环境做特殊处理
错误处理：覆盖网络中断、服务超时等异常场景

通过合理选择技术方案并优化实现细节，H5环境下的录音转文字功能可达到接近原生应用的体验。实际开发中，建议先实现基础功能，再逐步叠加降噪、实时识别等高级特性。