iOS 10语音转文字框架搭建全攻略

在iOS 10系统中实现语音转文字功能，需结合系统原生API与音频处理技术。本文将从环境配置、核心API调用、实时处理逻辑及性能优化四个维度展开，帮助开发者构建稳定高效的语音转文字框架。

一、系统环境与权限配置

系统版本兼容性
iOS 10引入了Speech框架（Speech.framework），提供离线语音识别能力。需确保项目部署目标（Deployment Target）设置为iOS 10.0或更高版本，在Xcode的General选项卡中配置。
隐私权限声明
在Info.plist中添加以下键值对以获取麦克风权限：
```
<key>NSMicrophoneUsageDescription</key>
<string>需要麦克风权限以实现语音转文字功能</string>
```
未声明此权限将导致录音失败，系统会直接拒绝访问。

音频会话配置
使用AVAudioSession管理音频输入输出：

import AVFoundation
func configureAudioSession() {
    let session = AVAudioSession.sharedInstance()
    do {
        try session.setCategory(.record, mode: .measurement, options: [])
        try session.setActive(true)
    } catch {
        print("音频会话配置失败: \(error)")
    }
}

.record类别确保麦克风独占访问，.measurement模式优化低延迟录音。

二、Speech框架核心API调用

初始化语音识别器
创建SFSpeechRecognizer实例时需指定语言（如中文zh-CN）：

import Speech
let recognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))

检查设备是否支持当前语言：

guard recognizer?.isAvailable == true else {
    print("当前语言不支持语音识别")
    return
}

创建识别请求
通过SFSpeechAudioBufferRecognitionRequest处理实时音频流：

let recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
recognitionRequest.shouldReportPartialResults = true  // 实时返回中间结果

启动识别任务
使用SFSpeechRecognitionTask处理请求，需在音频引擎（AVAudioEngine）中捕获数据：

let audioEngine = AVAudioEngine()
let inputNode = audioEngine.inputNode
recognizer?.recognitionTask(with: recognitionRequest) { result, error in
    if let result = result {
        let transcribedText = result.bestTranscription.formattedString
        print("实时转写结果: \(transcribedText)")
    }
    if error != nil {
        print("识别错误: \(error?.localizedDescription ?? "")")
    }
}

三、实时音频处理逻辑

音频流捕获与缓冲
安装音频输入节点到引擎，并设置格式（16kHz单声道）：

let format = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: format) { buffer, _ in
    recognitionRequest.append(buffer)
}

启动与停止控制
封装启动/停止方法以管理资源：

func startRecording() {
    audioEngine.prepare()
    do {
        try audioEngine.start()
    } catch {
        print("音频引擎启动失败: \(error)")
    }
}
func stopRecording() {
    audioEngine.stop()
    recognitionRequest?.endAudio()
}

四、性能优化与异常处理

低延迟优化
- 使用AVAudioSession的.lowLatency选项减少缓冲延迟。
- 限制SFSpeechAudioBufferRecognitionRequest的缓冲区大小（如512帧）。

错误恢复机制
监听SFSpeechRecognizer的可用性变化：

NotificationCenter.default.addObserver(forName: .SFSpeechRecognizerAuthorizationStatusDidChange, object: nil, queue: nil) { _ in
    if SFSpeechRecognizer.authorizationStatus() == .authorized {
        self.restartRecognition()  // 重新初始化识别器
    }
}

多语言支持扩展
动态切换识别语言：

func updateRecognizerLanguage(to localeIdentifier: String) {
    recognizer = SFSpeechRecognizer(locale: Locale(identifier: localeIdentifier))
}

五、完整代码示例

import Speech
import AVFoundation
class SpeechToTextManager {
    private let recognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))
    private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
    private var recognitionTask: SFSpeechRecognitionTask?
    private let audioEngine = AVAudioEngine()
    func requestAuthorization() {
        SFSpeechRecognizer.requestAuthorization { authStatus in
            DispatchQueue.main.async {
                guard authStatus == .authorized else {
                    print("未授权语音识别权限")
                    return
                }
                self.configureAudioSession()
            }
        }
    }
    private func configureAudioSession() {
        let session = AVAudioSession.sharedInstance()
        do {
            try session.setCategory(.record, mode: .measurement, options: [])
            try session.setActive(true)
        } catch {
            print("音频会话配置失败: \(error)")
        }
    }
    func startRecording() {
        guard let recognizer = recognizer, recognizer.isAvailable else {
            print("识别器不可用")
            return
        }
        recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
        recognitionRequest?.shouldReportPartialResults = true
        recognitionTask = recognizer.recognitionTask(with: recognitionRequest!) { result, error in
            if let result = result {
                print("转写结果: \(result.bestTranscription.formattedString)")
            }
            if error != nil {
                print("识别错误: \(error?.localizedDescription ?? "")")
            }
        }
        let inputNode = audioEngine.inputNode
        let format = inputNode.outputFormat(forBus: 0)
        inputNode.installTap(onBus: 0, bufferSize: 1024, format: format) { buffer, _ in
            self.recognitionRequest?.append(buffer)
        }
        audioEngine.prepare()
        do {
            try audioEngine.start()
        } catch {
            print("音频引擎启动失败: \(error)")
        }
    }
    func stopRecording() {
        audioEngine.stop()
        recognitionRequest?.endAudio()
        recognitionTask?.cancel()
        recognitionTask = nil
        recognitionRequest = nil
    }
}

六、测试与调试建议

真机测试
Simulator无法访问麦克风，需在iOS设备上验证功能。

日志监控
通过os_log记录关键节点：

import os.log
private let log = OSLog(subsystem: "com.example.speechtotext", category: "recognition")
os_log("启动语音识别", log: log, type: .info)

性能分析
使用Instruments的Time Profiler检测识别任务耗时，优化缓冲区处理逻辑。

通过以上步骤，开发者可在iOS 10中构建一个支持实时转写、多语言切换且具备错误恢复能力的语音转文字框架。实际应用中，可结合Core Data或SQLite存储历史记录，或通过WebSocket实现云端同步。”