iOS Speech框架实战：语音转文字的高效实现指南

一、Speech框架概述：苹果原生的语音识别解决方案

iOS Speech框架是苹果在2016年WWDC推出的语音识别工具集，作为系统级API，它直接调用设备端或服务端的语音识别引擎，支持包括中文在内的30余种语言。相较于第三方SDK，Speech框架的优势在于：

隐私安全：默认使用设备端识别（iOS 13+），数据无需上传服务器
性能优化：与系统深度集成，延迟低于200ms
功能全面：支持实时识别、连续识别、标点符号预测等高级特性

典型应用场景包括：

语音输入替代键盘输入
实时字幕生成（如视频会议）
语音指令控制
访谈内容转录

二、开发前准备：权限配置与依赖管理

1. 添加权限声明

在Info.plist中添加以下键值对：

<key>NSSpeechRecognitionUsageDescription</key>
<string>需要麦克风权限以实现语音转文字功能</string>
<key>NSMicrophoneUsageDescription</key>
<string>需要麦克风权限以录制语音</string>

2. 导入框架

在Swift文件中引入：

import Speech

3. 权限请求流程

func requestSpeechRecognitionPermission() {
    SFSpeechRecognizer.requestAuthorization { authStatus in
        DispatchQueue.main.async {
            switch authStatus {
            case .authorized:
                print("语音识别权限已授权")
            case .denied, .restricted, .notDetermined:
                print("权限被拒绝或未确定")
            @unknown default:
                break
            }
        }
    }
}

三、核心实现：从录音到文本转换

1. 创建语音识别器

let audioEngine = AVAudioEngine()
let speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))!
var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
var recognitionTask: SFSpeechRecognitionTask?

2. 配置音频引擎

func setupAudioEngine() throws {
    let audioSession = AVAudioSession.sharedInstance()
    try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
    try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
    let inputNode = audioEngine.inputNode
    let recordingFormat = inputNode.outputFormat(forBus: 0)
    recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
    guard let request = recognitionRequest else {
        fatalError("无法创建识别请求")
    }
    request.shouldReportPartialResults = true // 启用实时识别
    recognitionTask = speechRecognizer.recognitionTask(with: request) { [weak self] result, error in
        if let result = result {
            let transcribedText = result.bestTranscription.formattedString
            print("实时识别结果: \(transcribedText)")
        }
        if error != nil {
            self?.stopRecording()
        }
    }
    let recognitionHandler: (AVAudioPCMBuffer, AVAudioTime) -> Void = { buffer, _ in
        request.append(buffer)
    }
    inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat, block: recognitionHandler)
    audioEngine.prepare()
}

3. 启动/停止录音

func startRecording() throws {
    try setupAudioEngine()
    try audioEngine.start()
    print("开始录音...")
}
func stopRecording() {
    if audioEngine.isRunning {
        audioEngine.stop()
        recognitionRequest?.endAudio()
        audioEngine.inputNode.removeTap(onBus: 0)
        recognitionTask?.cancel()
        print("停止录音")
    }
}

四、高级功能实现

1. 离线识别配置

// 在创建SFSpeechRecognizer时指定离线模式
if let speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN")) {
    if #available(iOS 13.0, *) {
        speechRecognizer.supportsOnDeviceRecognition = true
    }
}

2. 上下文预测

let context = SFSpeechRecognitionContext(identifiers: ["医学术语", "IT专业词汇"])
let request = SFSpeechAudioBufferRecognitionRequest()
request.context = context // 提升特定领域识别准确率

3. 实时标点符号

// 默认已启用，如需关闭：
let request = SFSpeechAudioBufferRecognitionRequest()
request.usesPunctuation = false // 禁用标点

五、性能优化与最佳实践

1. 内存管理

使用weak self避免循环引用
及时取消不再需要的recognitionTask

监控音频引擎状态：

NotificationCenter.default.addObserver(forName: AVAudioEngineConfigurationChangeNotification, 
                                     object: nil, 
                                     queue: nil) { _ in
  // 处理配置变更
}

2. 错误处理

enum SpeechRecognitionError: Error {
    case audioEngineStartFailed
    case recognitionTaskCreationFailed
    case unauthorized
}
// 在实际调用中：
do {
    try startRecording()
} catch SpeechRecognitionError.audioEngineStartFailed {
    print("音频引擎启动失败")
} catch {
    print("未知错误: \(error)")
}

3. 电量优化

短时间识别使用设备端引擎

长时间识别（>5分钟）建议：

// 降低采样率（需重新配置AVAudioFormat）
let reducedFormat = AVAudioFormat(commonFormat: .pcmFormatFloat32, 
                                sampleRate: 16000, // 默认16kHz
                                channels: 1,
                                interleaved: false)

六、完整示例：带UI的语音转文字应用

import UIKit
import Speech
class ViewController: UIViewController {
    let audioEngine = AVAudioEngine()
    let speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))!
    var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
    var recognitionTask: SFSpeechRecognitionTask?
    @IBOutlet weak var textView: UITextView!
    @IBOutlet weak var recordButton: UIButton!
    override func viewDidLoad() {
        super.viewDidLoad()
        requestSpeechRecognitionPermission()
    }
    @IBAction func recordButtonTapped() {
        if audioEngine.isRunning {
            stopRecording()
            recordButton.setTitle("开始录音", for: .normal)
        } else {
            startRecording()
            recordButton.setTitle("停止录音", for: .normal)
        }
    }
    // 前述方法实现...
}

七、常见问题解决方案

1. 识别延迟过高

检查是否强制使用服务端识别：

// 确保未设置requiresOnDeviceRecognition为false
if #available(iOS 13.0, *) {
  speechRecognizer.requiresOnDeviceRecognition = false // 默认自动选择
}

2. 中文识别率低

确保locale设置正确：

let cnRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-Hans-CN"))!

3. iOS 15+新特性

使用SFSpeechRecognitionTaskDelegate获取更细粒度的控制：

class CustomDelegate: NSObject, SFSpeechRecognitionTaskDelegate {
  func speechRecognitionTask(_ task: SFSpeechRecognitionTask, 
                             didHypothesizeTranscription transcription: SFSpeechTranscription) {
      print("临时结果: \(transcription.formattedString)")
  }
}

八、版本兼容性说明

功能	支持版本	备注
设备端识别	iOS 13+	需显式启用
实时识别	iOS 10+	基础功能
上下文预测	iOS 14+	提升专业术语识别
多语言混合识别	iOS 15+	自动检测语种

通过系统学习Speech框架的实现机制，开发者可以构建出低延迟、高准确率的语音转文字应用。建议在实际项目中结合Core ML进行后处理，进一步提升识别结果的可用性。