一、Speech框架概述

Speech框架是Apple在iOS 10中引入的核心语音处理框架，它通过SFSpeechRecognizer类提供了强大的语音转文字功能。与传统第三方SDK不同，Speech框架深度集成于iOS系统，支持实时识别、离线识别、多语言处理等高级功能，同时严格遵循Apple的隐私保护规范。

框架的核心组件包括：

SFSpeechRecognizer：语音识别器主体，负责管理识别任务
SFSpeechAudioBufferRecognitionRequest：实时音频流识别请求
SFSpeechURLRecognitionRequest：离线音频文件识别请求
SFSpeechRecognitionTask：识别任务执行单元
SFSpeechRecognitionResult：识别结果封装对象

二、基础实现步骤

1. 权限配置

在Info.plist中添加两个关键权限描述：

<key>NSSpeechRecognitionUsageDescription</key>
<string>需要语音识别权限以实现语音转文字功能</string>
<key>NSMicrophoneUsageDescription</key>
<string>需要麦克风权限以采集语音数据</string>

2. 核心识别流程

import Speech
class SpeechRecognizer {
    private var speechRecognizer: SFSpeechRecognizer?
    private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
    private var recognitionTask: SFSpeechRecognitionTask?
    private let audioEngine = AVAudioEngine()
    func startRecognition() {
        // 1. 初始化识别器（限定中文）
        speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))
        // 2. 创建识别请求
        recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
        guard let request = recognitionRequest else { return }
        // 3. 配置识别任务
        recognitionTask = speechRecognizer?.recognitionTask(with: request) { result, error in
            if let result = result {
                // 处理中间结果（实时显示）
                let bestString = result.bestTranscription.formattedString
                print("识别结果: \(bestString)")
                // 最终结果判断
                if result.isFinal {
                    print("最终结果: \(bestString)")
                }
            }
            if let error = error {
                print("识别错误: \(error.localizedDescription)")
                self.stopRecognition()
            }
        }
        // 4. 配置音频输入
        let audioSession = AVAudioSession.sharedInstance()
        try? audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
        try? audioSession.setActive(true, options: .notifyOthersOnDeactivation)
        let inputNode = audioEngine.inputNode
        let recordingFormat = inputNode.outputFormat(forBus: 0)
        inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer: AVAudioPCMBuffer, when: AVAudioTime) in
            self.recognitionRequest?.append(buffer)
        }
        audioEngine.prepare()
        try? audioEngine.start()
    }
    func stopRecognition() {
        audioEngine.stop()
        recognitionRequest?.endAudio()
        recognitionTask?.cancel()
        recognitionTask = nil
    }
}

三、高级功能实现

1. 离线识别支持

// 检查离线识别可用性
func checkOfflineAvailability() {
    SFSpeechRecognizer.supportedLocales().forEach { locale in
        let recognizer = SFSpeechRecognizer(locale: locale)
        print("\(locale.identifier) 支持离线: \(recognizer?.supportsOnDeviceRecognition ?? false)")
    }
}
// 强制使用离线识别（iOS 13+）
let request = SFSpeechAudioBufferRecognitionRequest()
request.shouldReportPartialResults = true
request.requiresOnDeviceRecognition = true // 强制离线

2. 多语言混合识别

// 动态切换识别语言
func switchLanguage(to localeIdentifier: String) {
    speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: localeIdentifier))
    // 需要重新创建recognitionTask
}
// 中英文混合识别示例
let mixedRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))
mixedRecognizer?.sublanguages = [
    Locale(identifier: "zh-CN"),
    Locale(identifier: "en-US")
]

3. 音频文件识别

func recognizeAudioFile(url: URL) {
    let request = SFSpeechURLRecognitionRequest(url: url)
    let recognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))
    recognizer?.recognitionTask(with: request) { result, error in
        if let transcription = result?.bestTranscription {
            print("文件识别结果: \(transcription.formattedString)")
        }
    }
}

四、性能优化策略

1. 内存管理优化

使用NSCache缓存频繁使用的识别器实例
实现recognitionTask的弱引用持有，避免循环引用
对长音频采用分段处理策略

2. 识别精度提升

// 配置识别参数
let request = SFSpeechAudioBufferRecognitionRequest()
request.shouldReportPartialResults = true // 实时反馈
request.maximumRecognitionDuration = 30.0 // 最大识别时长
request.taskHint = .dictation // 优化长文本识别

3. 错误处理机制

enum RecognitionError: Error {
    case authorizationDenied
    case audioEngineFailed
    case recognitionServiceUnavailable
}
func handleRecognitionError(_ error: Error) -> RecognitionError? {
    if (error as NSError).code == SFErrorCode.errorNotAuthorized.rawValue {
        return .authorizationDenied
    } else if let speechError = error as? SFSpeechErrorCode {
        switch speechError {
        case .recognitionServiceBusy:
            return .recognitionServiceUnavailable
        default:
            return nil
        }
    }
    return nil
}

五、实际应用场景

1. 即时通讯语音输入

// 在UITextView中集成语音输入
class VoiceInputTextView: UITextView {
    private let speechRecognizer = SpeechRecognizer()
    @objc func startVoiceInput() {
        speechRecognizer.startRecognition { [weak self] text in
            DispatchQueue.main.async {
                self?.insertText(text)
            }
        }
    }
}

2. 会议记录系统

// 会议场景优化实现
class MeetingRecorder {
    private var speakers: [String: String] = [:]
    func processRecognitionResult(_ result: SFSpeechRecognitionResult) {
        let transcript = result.bestTranscription
        let segments = transcript.segments.map { $0.substring }
        // 说话人识别逻辑（需结合声纹分析）
        // 此处简化为时间间隔判断
        let currentTime = Date().timeIntervalSince1970
        if currentTime - lastSpeakerChangeTime > 5 {
            currentSpeaker = determineSpeaker()
        }
        speakers[currentSpeaker]?.append(transcript.formattedString)
    }
}

六、常见问题解决方案

1. 识别延迟优化

启用硬件加速：request.requiresOnDeviceRecognition = true
调整缓冲区大小：inputNode.installTap(..., bufferSize: 512)
限制识别时长：request.maximumRecognitionDuration = 15.0

2. 中断处理机制

func setupInterruptionHandler() {
    NotificationCenter.default.addObserver(forName: AVAudioSession.interruptionNotification, object: nil, queue: nil) { notification in
        guard let userInfo = notification.userInfo,
              let typeValue = userInfo[AVAudioSessionInterruptionTypeKey] as? UInt,
              let type = AVAudioSession.InterruptionType(rawValue: typeValue) else { return }
        if type == .began {
            self.stopRecognition()
        } else if type == .ended {
            // 检查是否需要恢复识别
        }
    }
}

3. 方言识别支持

// 添加方言识别支持
let dialectRecognizers: [SFSpeechRecognizer] = [
    SFSpeechRecognizer(locale: Locale(identifier: "zh-CN")), // 普通话
    SFSpeechRecognizer(locale: Locale(identifier: "yue-CN")), // 粤语
    SFSpeechRecognizer(locale: Locale(identifier: "cmn-Hans-CN")) // 简体中文
]
func recognizeWithDialects(audioBuffer: AVAudioPCMBuffer) {
    let group = DispatchGroup()
    var results: [String] = []
    dialectRecognizers.forEach { recognizer in
        group.enter()
        let request = SFSpeechAudioBufferRecognitionRequest()
        recognizer?.recognitionTask(with: request) { result, _ in
            if let transcription = result?.bestTranscription {
                results.append(transcription.formattedString)
            }
            group.leave()
        }
        request.append(audioBuffer)
    }
    group.notify(queue: .main) {
        // 选择最佳识别结果（可结合置信度）
    }
}

七、最佳实践建议

权限管理：在App启动时检查语音识别权限，避免在识别过程中弹出权限对话框
资源释放：实现deinit方法确保释放所有识别资源
状态管理：维护明确的识别状态（空闲/识别中/暂停）
测试覆盖：重点测试以下场景：
- 中英文混合输入
- 网络中断情况下的离线识别
- 长时间连续识别（>30分钟）
- 不同采样率的音频输入

八、未来发展方向

iOS 15引入的SFSpeechRecognizer.supportedLocales()方法可以动态获取支持的语言列表
结合Core ML实现自定义词汇表优化
通过SFSpeechRecognitionResult的confidence属性实现置信度过滤
探索与Vision框架结合实现多模态输入处理

通过系统掌握Speech框架的这些高级特性，开发者可以构建出媲美专业语音识别应用的iOS功能模块。实际开发中，建议从基础实现入手，逐步添加高级功能，并通过性能测试不断优化识别体验。

iOS Speech框架实战：语音转文字的完整实现指南