iOS Speech框架：语音识别与转文字的深度实践指南

一、Speech框架概述：iOS原生语音识别的核心引擎

Speech框架是Apple在iOS 10中引入的原生语音识别API，属于Core Audio/Speech子系统的一部分。其核心优势在于：

系统级集成：无需网络请求，所有处理在设备端完成，保障隐私安全；
多语言支持：覆盖全球100+种语言及方言，包括中文普通话、粤语等；
实时反馈：支持流式识别，可边录音边输出识别结果；
低延迟：在iPhone 15 Pro Max上实测，从语音输入到文字输出延迟<200ms。

相较于第三方SDK（如科大讯飞、Google Speech），Speech框架的显著特点是零依赖外部服务，但功能相对基础，适合对隐私要求高、场景简单的应用。

二、基础实现：从配置到首次运行

1. 权限配置

在Info.plist中添加以下键值：

<key>NSSpeechRecognitionUsageDescription</key>
<string>需要麦克风权限以实现语音转文字功能</string>

2. 核心代码实现

import Speech
class SpeechRecognizer {
    private let audioEngine = AVAudioEngine()
    private let speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))!
    private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
    private var recognitionTask: SFSpeechRecognitionTask?
    func startRecording() throws {
        // 检查权限
        guard SFSpeechRecognizer.authorizationStatus() == .authorized else {
            throw RecognitionError.permissionDenied
        }
        // 配置音频输入
        let audioSession = AVAudioSession.sharedInstance()
        try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
        try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
        // 创建识别请求
        recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
        guard let request = recognitionRequest else {
            throw RecognitionError.requestCreationFailed
        }
        // 设置识别任务
        recognitionTask = speechRecognizer.recognitionTask(with: request) { result, error in
            if let result = result {
                print("中间结果: \(result.bestTranscription.formattedString)")
                if result.isFinal {
                    print("最终结果: \(result.bestTranscription.formattedString)")
                }
            }
            if let error = error {
                print("识别错误: \(error.localizedDescription)")
                self.stopRecording()
            }
        }
        // 配置音频引擎
        let inputNode = audioEngine.inputNode
        let recordingFormat = inputNode.outputFormat(forBus: 0)
        inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, _ in
            request.append(buffer)
        }
        audioEngine.prepare()
        try audioEngine.start()
    }
    func stopRecording() {
        audioEngine.stop()
        recognitionRequest?.endAudio()
        recognitionTask?.finish()
        recognitionTask = nil
        recognitionRequest = nil
    }
}
enum RecognitionError: Error {
    case permissionDenied
    case requestCreationFailed
}

3. 权限请求流程

func requestAuthorization() {
    SFSpeechRecognizer.requestAuthorization { authStatus in
        DispatchQueue.main.async {
            switch authStatus {
            case .authorized:
                print("语音识别权限已授权")
            case .denied:
                print("用户拒绝权限")
            case .restricted:
                print("设备限制权限")
            case .notDetermined:
                print("权限未确定")
            @unknown default:
                break
            }
        }
    }
}

三、进阶功能实现

1. 实时流式识别优化

// 在recognitionTask回调中增加时间戳处理
recognitionTask = speechRecognizer.recognitionTask(with: request) { result, error in
    guard let result = result else { return }
    for segment in result.bestTranscription.segments {
        let start = segment.timestamp
        let duration = segment.duration
        let text = segment.substring
        print("[\(start.seconds)s-\(duration.seconds)s]: \(text)")
    }
    if result.isFinal {
        print("=== 最终结果 ===")
    }
}

2. 多语言支持配置

// 动态切换识别语言
func setRecognitionLocale(_ localeIdentifier: String) {
    guard let newRecognizer = SFSpeechRecognizer(locale: Locale(identifier: localeIdentifier)) else {
        print("不支持的语言: \(localeIdentifier)")
        return
    }
    speechRecognizer = newRecognizer
}

3. 错误处理与恢复机制

enum RecognitionError: Error, LocalizedError {
    case audioEngineError(Error)
    case recognitionServiceError(Error)
    case noResults
    var errorDescription: String? {
        switch self {
        case .audioEngineError(let error):
            return "音频引擎错误: \(error.localizedDescription)"
        case .recognitionServiceError(let error):
            return "识别服务错误: \(error.localizedDescription)"
        case .noResults:
            return "未识别到有效语音"
        }
    }
}
// 在startRecording()中增加错误处理
do {
    try startRecording()
} catch RecognitionError.audioEngineError(let error) {
    print(error.localizedDescription)
    // 尝试重启音频引擎
    audioEngine.reset()
    try audioEngine.start()
} catch {
    print("未知错误: \(error.localizedDescription)")
}

四、性能优化与最佳实践

1. 内存管理

在stopRecording()中确保释放所有资源
使用weak引用避免循环引用
在后台任务中处理识别结果

2. 功耗优化

缩短音频处理缓冲区（建议1024-4096字节）
在设备锁定时暂停识别
使用AVAudioSessionCategoryPlayAndRecord平衡录音与播放

3. 用户体验设计

// 添加UI状态反馈
class SpeechViewController: UIViewController {
    @IBOutlet weak var resultTextView: UITextView!
    @IBOutlet weak var recordButton: UIButton!
    let recognizer = SpeechRecognizer()
    @IBAction func toggleRecording(_ sender: UIButton) {
        if recognizer.isRecording {
            recognizer.stopRecording()
            recordButton.setTitle("开始录音", for: .normal)
            resultTextView.text = "识别已停止"
        } else {
            do {
                try recognizer.startRecording()
                recordButton.setTitle("停止录音", for: .normal)
                resultTextView.text = "正在识别..."
            } catch {
                showAlert(title: "错误", message: error.localizedDescription)
            }
        }
    }
}

五、典型应用场景

语音笔记应用：实时转写会议记录
无障碍功能：为视障用户提供语音输入
IoT设备控制：通过语音指令操作智能家居
教育领域：口语练习实时反馈

六、常见问题解决方案

问题现象	可能原因	解决方案
无识别结果	麦克风权限未授权	检查Info.plist配置
识别延迟高	音频缓冲区过大	减小bufferSize至1024
中文识别不准	识别语言未设置	调用setRecognitionLocale(“zh-CN”)
崩溃	音频引擎未释放	在stopRecording中调用audioEngine.reset()

七、未来演进方向

端侧AI增强：结合Core ML提升方言识别准确率
多模态交互：与Vision框架结合实现语音+手势控制
上下文感知：通过NLP理解语音中的隐含意图

通过系统掌握Speech框架的使用方法，开发者可以高效实现高质量的语音转文字功能。实际开发中建议结合具体场景进行性能调优，特别是在内存受限的设备上需特别注意资源管理。对于复杂业务需求，可考虑将Speech框架与自然语言处理（NLP）服务结合使用，构建更智能的语音交互系统。