一、语音识别技术基础与Android实现路径

语音识别（Speech Recognition）是将人类语音转换为文本的技术，在Android系统中主要通过SpeechRecognizer类实现。该功能依赖系统预装的语音识别引擎（如Google语音服务），开发者无需集成第三方SDK即可实现基础功能。

1.1 核心实现原理

Android语音识别流程分为四个阶段：

初始化阶段：创建SpeechRecognizer实例并配置参数
录音阶段：通过AudioRecord采集麦克风数据
识别阶段：将音频流发送至系统识别服务
结果返回：通过回调接口返回识别文本

系统底层使用WebRTC的音频处理模块进行降噪和特征提取，识别引擎采用深度神经网络（DNN）模型，支持中英文等80+种语言。

1.2 开发前准备

在AndroidManifest.xml中添加必要权限：

<uses-permission android:name="android.permission.RECORD_AUDIO" />
<uses-permission android:name="android.permission.INTERNET" /> <!-- 离线识别需额外配置 -->

对于Android 10及以上版本，需动态申请麦克风权限：

private fun checkPermission() {
    if (ContextCompat.checkSelfPermission(this, Manifest.permission.RECORD_AUDIO) 
        != PackageManager.PERMISSION_GRANTED) {
        ActivityCompat.requestPermissions(this, 
            arrayOf(Manifest.permission.RECORD_AUDIO), 
            REQUEST_RECORD_AUDIO_PERMISSION)
    }
}

二、完整代码实现

2.1 基础识别实现

class VoiceRecognitionActivity : AppCompatActivity() {
    private lateinit var speechRecognizer: SpeechRecognizer
    private lateinit var recognitionIntent: Intent
    override fun onCreate(savedInstanceState: Bundle?) {
        super.onCreate(savedInstanceState)
        setContentView(R.layout.activity_main)
        checkPermission()
        initSpeechRecognizer()
        findViewById<Button>(R.id.btn_start).setOnClickListener {
            startListening()
        }
    }
    private fun initSpeechRecognizer() {
        speechRecognizer = SpeechRecognizer.createSpeechRecognizer(this)
        recognitionIntent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH).apply {
            putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, 
                RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
            putExtra(RecognizerIntent.EXTRA_CALLING_PACKAGE, packageName)
            putExtra(RecognizerIntent.EXTRA_MAX_RESULTS, 5) // 返回最多5个候选结果
        }
        speechRecognizer.setRecognitionListener(object : RecognitionListener {
            override fun onResults(results: Bundle?) {
                val matches = results?.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)
                matches?.let {
                    val resultText = it[0] // 取第一个识别结果
                    findViewById<TextView>(R.id.tv_result).text = resultText
                }
            }
            override fun onError(error: Int) {
                val errorMsg = when (error) {
                    SpeechRecognizer.ERROR_AUDIO -> "音频错误"
                    SpeechRecognizer.ERROR_CLIENT -> "客户端错误"
                    SpeechRecognizer.ERROR_NETWORK -> "网络错误"
                    else -> "未知错误"
                }
                Toast.makeText(this@VoiceRecognitionActivity, errorMsg, Toast.LENGTH_SHORT).show()
            }
            // 其他必要回调方法...
            override fun onReadyForSpeech(params: Bundle?) {}
            override fun onBeginningOfSpeech() {}
            override fun onRmsChanged(rmsdB: Float) {}
            override fun onBufferReceived(buffer: ByteArray?) {}
            override fun onEndOfSpeech() {}
            override fun onPartialResults(partialResults: Bundle?) {}
            override fun onEvent(eventType: Int, params: Bundle?) {}
        })
    }
    private fun startListening() {
        speechRecognizer.startListening(recognitionIntent)
    }
    override fun onDestroy() {
        super.onDestroy()
        speechRecognizer.destroy()
    }
}

2.2 高级功能扩展

2.2.1 离线识别配置

在支持设备上启用离线识别：

recognitionIntent.apply {
    putExtra(RecognizerIntent.EXTRA_PREFER_OFFLINE, true)
    putExtra(RecognizerIntent.EXTRA_LANGUAGE, "zh-CN") // 指定中文
}

2.2.2 语音指令识别

通过EXTRA_LANGUAGE_MODEL指定特定场景：

// 适用于短语音指令
putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_WEB_SEARCH)
// 适用于数字识别
putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
putExtra(RecognizerIntent.EXTRA_SPEECH_INPUT_COMPLETE_SILENCE_LENGTH_MILLIS, 1000)

2.2.3 持续监听实现

通过循环调用实现持续识别：

private var isListening = false
private fun toggleListening() {
    if (isListening) {
        speechRecognizer.stopListening()
        isListening = false
    } else {
        speechRecognizer.startListening(recognitionIntent)
        isListening = true
    }
}

三、性能优化与最佳实践

3.1 音频参数调优

// 设置音频采样率（需设备支持）
val audioParams = Bundle().apply {
    putInt(AudioManager.EXTRA_PREFERRED_SAMPLING_RATE, 16000) // 16kHz
    putInt(AudioManager.EXTRA_PREFERRED_CHANNEL_CONFIG, AudioFormat.CHANNEL_IN_MONO)
}
recognitionIntent.putExtras(audioParams)

3.2 错误处理机制

override fun onError(error: Int) {
    when (error) {
        SpeechRecognizer.ERROR_NO_MATCH -> {
            // 无匹配结果时的处理
            showRetryDialog()
        }
        SpeechRecognizer.ERROR_RECOGNIZER_BUSY -> {
            // 识别服务忙时的处理
            Handler(Looper.getMainLooper()).postDelayed({
                startListening()
            }, 1000)
        }
        // 其他错误处理...
    }
}

3.3 内存管理

// 在Activity的onPause中暂停识别
override fun onPause() {
    super.onPause()
    if (isListening) {
        speechRecognizer.cancel()
        isListening = false
    }
}
// 使用WeakReference避免内存泄漏
private class WeakRecognitionListener(activity: VoiceRecognitionActivity) : RecognitionListener {
    private val weakActivity = WeakReference(activity)
    override fun onResults(results: Bundle?) {
        weakActivity.get()?.run {
            // 处理结果
        }
    }
    // 其他方法实现...
}

四、常见问题解决方案

4.1 识别延迟优化

减少EXTRA_MAX_RESULTS数量（默认5个）
使用EXTRA_PARTIAL_RESULTS获取实时中间结果

限制音频输入长度：

putExtra(RecognizerIntent.EXTRA_SPEECH_INPUT_MIN_LENGTH_MILLIS, 3000) // 最小3秒
putExtra(RecognizerIntent.EXTRA_SPEECH_INPUT_COMPLETE_SILENCE_LENGTH_MILLIS, 1500) // 1.5秒静默结束

4.2 多语言支持

// 自动检测语言
putExtra(RecognizerIntent.EXTRA_LANGUAGE, "zh-CN") // 强制中文
// 或
putExtra(RecognizerIntent.EXTRA_LANGUAGE, "en-US") // 强制英文
// 混合语言识别（需系统支持）
putExtra(RecognizerIntent.EXTRA_LANGUAGE, "cmn-Hans-CN") // 简体中文

4.3 兼容性处理

// 检查设备是否支持语音识别
private fun isSpeechRecognitionAvailable(): Boolean {
    val pm = packageManager
    val activities = pm.queryIntentActivities(
        Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH), 0)
    return activities.size > 0
}
// 备用方案实现
if (!isSpeechRecognitionAvailable()) {
    // 显示不支持提示或跳转应用市场
    Toast.makeText(this, "设备不支持语音识别", Toast.LENGTH_LONG).show()
}

五、进阶功能实现

5.1 语音唤醒词检测

结合AudioRecord实现自定义唤醒词：

private fun setupWakeWordDetection() {
    val bufferSize = AudioRecord.getMinBufferSize(
        16000, AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT)
    val audioRecord = AudioRecord(
        MediaRecorder.AudioSource.MIC, 16000,
        AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT, bufferSize)
    audioRecord.startRecording()
    val thread = Thread {
        val buffer = ShortArray(bufferSize / 2)
        while (isListening) {
            val read = audioRecord.read(buffer, 0, buffer.size)
            if (read > 0) {
                // 在此实现唤醒词检测算法
                if (detectWakeWord(buffer)) {
                    runOnUiThread { startListening() }
                }
            }
        }
    }
    thread.start()
}

5.2 实时语音转写

通过EXTRA_PARTIAL_RESULTS实现：

recognitionIntent.putExtra(RecognizerIntent.EXTRA_PARTIAL_RESULTS, true)
// 在RecognitionListener中处理
override fun onPartialResults(partialResults: Bundle?) {
    val partialMatches = partialResults?.getStringArrayList(
        SpeechRecognizer.RESULTS_RECOGNITION)
    partialMatches?.let {
        val interimText = it[0]
        findViewById<TextView>(R.id.tv_interim).text = interimText
    }
}

六、测试与调试技巧

6.1 日志分析

// 启用详细日志
adb shell setprop log.tag.SpeechRecognizer VERBOSE
adb logcat | grep SpeechRecognizer

6.2 模拟语音输入

使用Android Studio的模拟器功能：

打开Extended Controls面板
选择Microphone选项
录制或上传音频文件进行测试

6.3 性能监控

// 监控识别耗时
private var recognitionStartTime: Long = 0
override fun onBeginningOfSpeech() {
    recognitionStartTime = System.currentTimeMillis()
}
override fun onResults(results: Bundle?) {
    val duration = System.currentTimeMillis() - recognitionStartTime
    Log.d("SpeechPerf", "Recognition took $duration ms")
}

通过以上完整实现方案，开发者可以快速构建具备专业级语音识别功能的Android应用。实际开发中需根据具体场景调整参数，并做好异常处理和性能优化。”

Android语音识别：零基础到完整实现的指南