一、技术背景与功能概述

语音转文字（Speech-to-Text, STT）作为人机交互的核心技术，广泛应用于智能助手、无障碍服务、会议记录等场景。在Android开发中，通过Google提供的SpeechRecognizer API或第三方SDK（如CMU Sphinx、Microsoft Azure Speech SDK），开发者可快速实现语音识别功能。本文重点介绍基于Android原生API的实现方案，兼顾兼容性与性能优化。

1.1 核心实现原理

语音转文字的实现依赖三个关键环节：

音频采集：通过Android的MediaRecorder或AudioRecord类捕获麦克风输入
语音识别：将音频流转换为文本（需调用云端或本地识别引擎）
结果处理：解析识别结果并更新UI

Google原生API采用云端识别方案，具有高准确率但需网络支持；本地方案（如PocketSphinx）则无需网络但识别率较低。开发者需根据场景需求选择合适方案。

二、开发环境准备

2.1 Android Studio配置要求

最低版本：Android Studio Flamingo（2022.2.1）

依赖库：

implementation 'androidx.core1.10.0'
implementation 'com.google.android.material1.9.0'
// 若使用第三方SDK需添加对应依赖

2.2 权限声明

在AndroidManifest.xml中添加必要权限：

<uses-permission android:name="android.permission.RECORD_AUDIO" />
<uses-permission android:name="android.permission.INTERNET" /> <!-- 云端识别需此权限 -->

动态权限申请代码示例：

private fun checkAudioPermission() {
    if (ContextCompat.checkSelfPermission(this, Manifest.permission.RECORD_AUDIO) 
        != PackageManager.PERMISSION_GRANTED) {
        ActivityCompat.requestPermissions(this, 
            arrayOf(Manifest.permission.RECORD_AUDIO), 
            AUDIO_PERMISSION_CODE)
    }
}

三、核心实现步骤

3.1 创建SpeechRecognizer实例

private lateinit var speechRecognizer: SpeechRecognizer
private lateinit var recognitionListener: RecognitionListener
private fun initSpeechRecognizer() {
    speechRecognizer = SpeechRecognizer.createSpeechRecognizer(this)
    recognitionListener = object : RecognitionListener {
        override fun onResults(results: Bundle) {
            val matches = results.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)
            matches?.let { 
                textView.text = it[0] // 显示第一个识别结果
            }
        }
        // 需实现其他必要回调方法...
    }
    speechRecognizer.setRecognitionListener(recognitionListener)
}

3.2 配置识别参数

通过Intent设置识别参数：

private fun startListening() {
    val intent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH).apply {
        putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, 
            RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
        putExtra(RecognizerIntent.EXTRA_MAX_RESULTS, 5) // 返回最多5个候选结果
        putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.getDefault())
    }
    speechRecognizer.startListening(intent)
}

3.3 完整生命周期管理

override fun onDestroy() {
    super.onDestroy()
    speechRecognizer.destroy() // 防止内存泄漏
}
// 在Activity/Fragment中管理识别状态
private fun toggleListening() {
    if (isListening) {
        speechRecognizer.stopListening()
        btnToggle.text = "开始录音"
    } else {
        checkAudioPermission()
        speechRecognizer.startListening(createSpeechIntent())
        btnToggle.text = "停止录音"
    }
    isListening = !isListening
}

四、进阶优化方案

4.1 本地识别方案实现（PocketSphinx）

添加依赖：

implementation 'edu.cmu.pocketsphinx5prealpha@aar'

初始化配置：

private fun initPocketSphinx() {
 val config = SpeechRecognizerSetup.defaultSetup()
     .setAcousticModel(File(assetsDir, "en-us-ptm"))
     .setDictionary(File(assetsDir, "cmudict-en-us.dict"))
     .getRecognizer()
 config.addListener(object : RecognitionListener {
     override fun onResult(hypothesis: String) {
         runOnUiThread { textView.text = hypothesis }
     }
 })
}

4.2 性能优化策略

音频预处理：使用AudioRecord实现16kHz采样率，提升识别率

val bufferSize = AudioRecord.getMinBufferSize(
  16000, 
  AudioFormat.CHANNEL_IN_MONO, 
  AudioFormat.ENCODING_PCM_16BIT
)
val audioRecord = AudioRecord(
  MediaRecorder.AudioSource.MIC,
  16000,
  AudioFormat.CHANNEL_IN_MONO,
  AudioFormat.ENCODING_PCM_16BIT,
  bufferSize
)

网络优化：设置超时参数（云端识别）

intent.putExtra(RecognizerIntent.EXTRA_SPEECH_INPUT_COMPLETE_SILENCE_LENGTH_MILLIS, 5000)

五、常见问题解决方案

5.1 识别准确率低问题

检查麦克风方向（近讲模式效果更佳）

添加噪声抑制算法：

// 使用WebRTC的噪声抑制模块（需集成）
val audioProcessor = NoiseSuppressor.create()
audioRecord.setInputProcessor(audioProcessor)

5.2 兼容性问题处理

针对Android 10+的后台限制，使用ForegroundService保持识别

class SpeechService : Service() {
  override fun onStartCommand(intent: Intent?, flags: Int, startId: Int): Int {
      val notification = NotificationCompat.Builder(this, CHANNEL_ID)
          .setContentTitle("语音识别中...")
          .build()
      startForeground(1, notification)
      return START_STICKY
  }
}

六、完整示例项目结构

app/
├── src/
│   ├── main/
│   │   ├── java/com/example/stt/
│   │   │   ├── MainActivity.kt
│   │   │   ├── SpeechService.kt
│   │   │   └── utils/AudioProcessor.kt
│   │   └── res/
│   │       ├── raw/en-us.dict
│   │       └── xml/audio_config.xml
│   └── androidTest/
└── build.gradle

七、总结与建议

方案选择：
- 云端识别：适合高准确率需求（需处理网络异常）
- 本地识别：适合离线场景（需权衡识别率）
性能监控：
- 使用Android Profiler监测CPU/内存占用
- 记录识别延迟（建议<1.5秒）
扩展方向：
- 添加多语言支持（通过EXTRA_LANGUAGE参数）
- 实现实时逐字显示（需处理部分结果回调）

通过系统化的实现与优化，开发者可在Android Studio中构建出稳定高效的语音转文字功能，为应用增添核心交互能力。实际开发中建议先实现基础功能，再逐步添加优化层，确保各环节的可靠性。

Android Studio实战：语音转文字功能的完整实现指南