引言：iOS 10 Speech框架的革新价值

iOS 10首次推出的Speech框架（SFSpeechRecognizer）为开发者提供了系统级的语音识别能力，相比第三方SDK，其优势在于低延迟、高准确率及与iOS生态的无缝集成。本文将通过实际案例，解析如何利用该框架构建支持实时转录、多语言切换及离线识别的语音应用。

一、基础环境配置与权限管理

1.1 项目设置与依赖添加

在Xcode中创建新项目后，需在Info.plist中添加两项权限描述：

<key>NSSpeechRecognitionUsageDescription</key>
<string>本应用需要访问麦克风以实现语音转文本功能</string>
<key>NSMicrophoneUsageDescription</key>
<string>本应用需要麦克风权限进行语音输入</string>

1.2 权限请求最佳实践

采用渐进式权限请求策略，在用户触发录音功能时动态请求权限：

import AVFoundation
func requestMicrophonePermission() {
    AVAudioSession.sharedInstance().requestRecordPermission { granted in
        DispatchQueue.main.async {
            if granted {
                self.startSpeechRecognition()
            } else {
                self.showPermissionDeniedAlert()
            }
        }
    }
}

二、核心识别流程实现

2.1 初始化识别器

创建SFSpeechRecognizer实例时需指定语言环境（支持100+种语言）：

let recognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))
// 离线识别需设置requiresOnDeviceRecognition为true
let audioEngine = AVAudioEngine()
var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
var recognitionTask: SFSpeechRecognitionTask?

2.2 实时音频处理管道

构建从麦克风输入到识别请求的完整链路：

func startRecording() throws {
    // 配置音频会话
    let audioSession = AVAudioSession.sharedInstance()
    try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
    try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
    // 创建识别请求
    recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
    guard let request = recognitionRequest else { return }
    // 启动识别任务
    recognitionTask = recognizer?.recognitionTask(with: request) { result, error in
        if let result = result {
            self.textView.text = result.bestTranscription.formattedString
        }
        // 错误处理见下文
    }
    // 配置音频引擎
    let inputNode = audioEngine.inputNode
    let recordingFormat = inputNode.outputFormat(forBus: 0)
    inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, _ in
        request.append(buffer)
    }
    audioEngine.prepare()
    try audioEngine.start()
}

2.3 识别结果处理

通过SFSpeechRecognitionResult的bestTranscription属性获取最优结果，其segments数组包含时间戳和置信度信息：

if let transcription = result.bestTranscription {
    for segment in transcription.segments {
        let confidence = segment.confidence // 0.0~1.0
        let substring = (transcription.formattedString as NSString).substring(with: segment.substringRange)
        print("\(substring) [置信度:\(confidence*100)%]")
    }
}

三、高级功能实现

3.1 多语言动态切换

通过修改SFSpeechRecognizer的locale属性实现语言切换：

func switchLanguage(to localeIdentifier: String) {
    recognitionTask?.cancel()
    recognitionTask = nil
    recognizer = SFSpeechRecognizer(locale: Locale(identifier: localeIdentifier))
    // 重新启动识别流程
}

3.2 离线识别配置

在iOS 13+设备上可启用完全离线识别：

if #available(iOS 13.0, *) {
    let config = SFSpeechRecognizer.AuthorizationStatus.authorized
    recognizer = SFSpeechRecognizer(locale: Locale.current)
    recognizer?.supportsOnDeviceRecognition = true
}

3.3 实时反馈优化

通过SFSpeechRecognitionTaskDelegate实现进度反馈：

extension ViewController: SFSpeechRecognitionTaskDelegate {
    func speechRecognitionTask(_ task: SFSpeechRecognitionTask, 
                              didHypothesizeTranscription transcription: SFTranscription) {
        // 显示临时识别结果
        DispatchQueue.main.async {
            self.temporaryTextView.text = transcription.formattedString
        }
    }
}

四、错误处理与边界条件

4.1 常见错误类型

错误类型	处理方案
SFSpeechRecognizerError.notAvailable	检查设备语言支持
SFSpeechRecognizerError.rejected	引导用户到设置中启用权限
SFSpeechRecognizerError.audioError	重启音频引擎
SFSpeechRecognizerError.timeout	设置更长的超时时间

4.2 健壮性实现示例

func handleRecognitionError(_ error: Error) {
    guard let speechError = error as? SFSpeechRecognizerError else {
        showAlert(title: "未知错误", message: error.localizedDescription)
        return
    }
    switch speechError {
    case .notAvailable:
        showAlert(title: "服务不可用", message: "当前语言不支持语音识别")
    case .rejected:
        openAppSettings()
    default:
        retryRecognitionAfterDelay(3.0)
    }
}

五、性能优化建议

音频格式优化：使用16kHz单声道PCM格式可减少30%数据处理量
缓冲区管理：保持1024-2048样本的缓冲区大小平衡延迟与CPU占用
内存控制：定期清理已完成的识别任务对象
后台处理：通过AVAudioSessionCategoryPlayAndRecord保持后台音频会话

六、完整实现示例

import Speech
import AVFoundation
class SpeechRecognitionViewController: UIViewController {
    @IBOutlet weak var textView: UITextView!
    private let speechRecognizer = SFSpeechRecognizer(locale: Locale.current)
    private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
    private var recognitionTask: SFSpeechRecognitionTask?
    private let audioEngine = AVAudioEngine()
    override func viewDidLoad() {
        super.viewDidLoad()
        speechRecognizer?.delegate = self
        requestAuthorization()
    }
    private func requestAuthorization() {
        SFSpeechRecognizer.requestAuthorization { authStatus in
            DispatchQueue.main.async {
                guard authStatus == .authorized else {
                    self.showAuthorizationAlert()
                    return
                }
            }
        }
    }
    @IBAction func startRecording(_ sender: UIButton) {
        do {
            try startSpeechRecognition()
            sender.setTitle("停止", for: .normal)
        } catch {
            showAlert(title: "错误", message: error.localizedDescription)
        }
    }
    private func startSpeechRecognition() throws {
        recognitionTask?.cancel()
        recognitionTask = nil
        recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
        guard let request = recognitionRequest else { return }
        request.shouldReportPartialResults = true
        recognitionTask = speechRecognizer?.recognitionTask(with: request) { [weak self] result, error in
            guard let self = self else { return }
            if let result = result {
                self.textView.text = result.bestTranscription.formattedString
            }
            if let error = error {
                self.handleRecognitionError(error)
            }
        }
        let audioSession = AVAudioSession.sharedInstance()
        try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
        try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
        let inputNode = audioEngine.inputNode
        let recordingFormat = inputNode.outputFormat(forBus: 0)
        inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, _ in
            request.append(buffer)
        }
        audioEngine.prepare()
        try audioEngine.start()
    }
}
extension SpeechRecognitionViewController: SFSpeechRecognizerDelegate {
    func speechRecognizer(_ speechRecognizer: SFSpeechRecognizer, 
                         availabilityDidChange available: Bool) {
        // 更新UI状态
    }
}

七、总结与展望

iOS 10的Speech框架通过系统级集成提供了高效的语音识别解决方案，开发者应重点关注：

动态权限管理策略
实时音频处理管道的稳定性
多语言场景的适配方案
离线识别能力的合理利用

随着iOS版本迭代，建议持续关注Apple在机器学习领域的进展，未来可能集成更先进的端侧模型进一步提升识别准确率。对于需要更高定制化的场景，可考虑结合Core ML框架部署自定义语音模型。

基于iOS 10 Speech框架：快速开发语音转文本应用全解析