一、技术背景与核心原理

语音转文字（Speech-to-Text, STT）是Android系统原生支持的AI功能，其核心依赖Android SpeechRecognizer API和Google Speech Recognition Service。开发者无需自行搭建语音识别模型，通过调用系统级服务即可实现高精度转换。技术实现主要包含三个阶段：

音频采集：通过Android的MediaRecorder或AudioRecord类捕获麦克风输入。
语音识别：将音频数据流发送至系统语音识别引擎（或第三方服务）。
结果处理：接收识别结果并转换为可用的文本格式。

相较于传统方案，Android原生API的优势在于：

无需集成大型语音识别库（如CMUSphinx）
支持离线识别（需设备预装Google语音引擎）
兼容多语言识别（通过EXTRA_LANGUAGE参数配置）

二、开发环境准备

1. 权限配置

在AndroidManifest.xml中添加必要权限：

<uses-permission android:name="android.permission.RECORD_AUDIO" />
<uses-permission android:name="android.permission.INTERNET" /> <!-- 联网识别时需要 -->

2. 依赖检查

确保项目build.gradle中包含：

implementation 'androidx.core:core-ktx:1.12.0' // Kotlin扩展支持

3. 设备兼容性

最低API级别建议设置为21（Android 5.0）
测试时需覆盖不同厂商设备（华为、小米等可能存在语音引擎差异）

三、核心代码实现

1. 初始化语音识别器

private lateinit var speechRecognizer: SpeechRecognizer
private lateinit var recognizerIntent: Intent
private fun initSpeechRecognizer() {
    speechRecognizer = SpeechRecognizer.createSpeechRecognizer(this)
    recognizerIntent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH).apply {
        putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
        putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.getDefault())
        putExtra(RecognizerIntent.EXTRA_MAX_RESULTS, 5) // 返回最多5个候选结果
    }
}

2. 设置识别监听器

private val recognitionListener = object : RecognitionListener {
    override fun onResults(results: Bundle) {
        val matches = results.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)
        matches?.let {
            val text = it[0] // 取第一个识别结果
            binding.resultTextView.text = text
        }
    }
    override fun onError(error: Int) {
        when (error) {
            SpeechRecognizer.ERROR_NETWORK -> showToast("网络错误")
            SpeechRecognizer.ERROR_SPEECH_TIMEOUT -> showToast("未检测到语音")
            else -> showToast("识别失败: $error")
        }
    }
    // 其他必要方法实现（onReadyForSpeech等）
}

3. 启动识别流程

private fun startListening() {
    speechRecognizer.setRecognitionListener(recognitionListener)
    speechRecognizer.startListening(recognizerIntent)
    binding.recordButton.text = "正在聆听..."
}

4. 停止识别并释放资源

private fun stopListening() {
    speechRecognizer.stopListening()
    speechRecognizer.destroy() // 重要：避免内存泄漏
    binding.recordButton.text = "开始录音"
}

四、进阶优化方案

1. 离线识别配置

recognizerIntent.putExtra(
    RecognizerIntent.EXTRA_PREFER_OFFLINE,
    true // 强制使用离线识别引擎
)

注意：离线模式仅支持部分语言，且准确率可能低于在线模式。

2. 自定义语音模型

通过EXTRA_LANGUAGE_MODEL参数指定专业领域：

// 医疗领域语音识别
recognizerIntent.putExtra(
    RecognizerIntent.EXTRA_LANGUAGE_MODEL,
    RecognizerIntent.LANGUAGE_MODEL_MEDICAL
)

3. 实时识别优化

使用AudioRecord实现低延迟音频采集：

private val audioRecord = AudioRecord(
    MediaRecorder.AudioSource.MIC,
    16000, // 采样率
    AudioFormat.CHANNEL_IN_MONO,
    AudioFormat.ENCODING_PCM_16BIT,
    AudioRecord.getMinBufferSize(...)
)

五、常见问题解决方案

1. 识别超时处理

// 设置识别超时时间（毫秒）
recognizerIntent.putExtra(
    RecognizerIntent.EXTRA_SPEECH_INPUT_COMPLETE_SILENCE_LENGTH_MILLIS,
    5000L
)

2. 多语言支持

// 支持中英文混合识别
recognizerIntent.putExtra(
    RecognizerIntent.EXTRA_LANGUAGE,
    "zh-CN" // 主语言
)
recognizerIntent.putExtra(
    RecognizerIntent.EXTRA_ADDITIONAL_LANGUAGES,
    arrayOf(Locale.ENGLISH) // 附加语言
)

3. 厂商兼容性问题

针对华为设备需添加：

<uses-permission android:name="com.huawei.permission.SEC_AUDIO_CAPTURE" />

六、性能测试与调优

1. 内存占用监控

使用Android Profiler观察SpeechRecognizer实例的内存分配情况，确保在onDestroy()中正确释放资源。

2. 延迟优化

音频采样率建议设置为16kHz（平衡质量与性能）
避免在主线程处理识别结果

3. 准确率提升技巧

添加噪声抑制算法（如WebRTC的NS模块）
限制识别词汇表（通过EXTRA_CALLING_PACKAGE参数）

七、完整示例项目结构

app/
├── src/
│   ├── main/
│   │   ├── java/com/example/stt/
│   │   │   ├── MainActivity.kt (核心逻辑)
│   │   │   ├── SpeechHelper.kt (工具类)
│   │   ├── res/
│   │   │   ├── layout/activity_main.xml
│   │   │   ├── values/strings.xml

八、部署注意事项

隐私政策：需在应用中声明语音数据使用目的
权限请求：动态请求RECORD_AUDIO权限
备用方案：集成第三方SDK（如Microsoft Azure Speech）作为降级方案

通过上述技术方案，开发者可在AndroidStudio中快速实现稳定的语音转文字功能。实际开发中建议结合具体业务场景进行定制化调整，例如医疗领域需强化专业术语识别，教育场景可增加儿童语音优化等。

基于AndroidStudio实现语音转文字功能全解析