iOS 10 Speech框架实战：打造高效语音转文本应用

一、iOS 10 Speech框架概述

iOS 10首次引入的Speech框架（Speech.framework）为开发者提供了强大的语音识别能力，支持实时语音转文本（STT）功能。相较于第三方API，其核心优势在于：

原生集成：无需依赖网络请求，降低延迟；
隐私保护：所有处理在设备端完成，数据不外传；
多语言支持：默认支持50+种语言及方言（如中文、英文、西班牙语等）。

该框架通过SFSpeechRecognizer类管理识别任务，结合SFSpeechAudioBufferRecognitionRequest处理音频流，实现高效的语音到文本转换。

二、开发前准备：权限与配置

1. 添加权限描述

在Info.plist中添加以下键值对，声明麦克风使用权限及语音识别用途：

<key>NSSpeechRecognitionUsageDescription</key>
<string>本应用需要语音识别功能以实现语音转文本</string>
<key>NSMicrophoneUsageDescription</key>
<string>本应用需要访问麦克风以录制语音</string>

2. 导入框架

在Swift文件中导入Speech框架：

import Speech

3. 检查授权状态

使用SFSpeechRecognizer.authorizationStatus()检查当前授权状态，并请求权限：

func requestSpeechAuthorization() {
    SFSpeechRecognizer.requestAuthorization { authStatus in
        DispatchQueue.main.async {
            switch authStatus {
            case .authorized:
                print("语音识别权限已授予")
            case .denied, .restricted, .notDetermined:
                print("用户拒绝或未决定权限")
            @unknown default:
                break
            }
        }
    }
}

三、核心功能实现：语音转文本流程

1. 初始化语音识别器

创建SFSpeechRecognizer实例，并指定语言（可选）：

let speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN")) // 中文识别
guard let recognizer = speechRecognizer else {
    print("当前语言不支持语音识别")
    return
}

2. 创建识别请求

使用SFSpeechAudioBufferRecognitionRequest处理实时音频流：

let recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
guard let request = recognitionRequest else {
    print("无法创建识别请求")
    return
}
request.shouldReportPartialResults = true // 启用实时反馈

3. 配置音频引擎

通过AVAudioEngine捕获麦克风输入，并将音频数据传递给识别请求：

let audioEngine = AVAudioEngine()
var recognitionTask: SFSpeechRecognitionTask?
func startRecording() throws {
    // 配置音频会话
    let audioSession = AVAudioSession.sharedInstance()
    try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
    try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
    // 添加输入节点
    let inputNode = audioEngine.inputNode
    let recordingFormat = inputNode.outputFormat(forBus: 0)
    inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, _ in
        request.append(buffer)
    }
    // 启动音频引擎
    audioEngine.prepare()
    try audioEngine.start()
    // 启动识别任务
    recognitionTask = speechRecognizer.recognitionTask(with: request) { result, error in
        if let result = result {
            let transcribedText = result.bestTranscription.formattedString
            print("实时转文本结果: \(transcribedText)")
        }
        if let error = error {
            print("识别错误: \(error.localizedDescription)")
            self.stopRecording()
        }
    }
}

4. 停止录音与清理资源

func stopRecording() {
    audioEngine.stop()
    audioEngine.inputNode.removeTap(onBus: 0)
    recognitionTask?.cancel()
    recognitionTask = nil
}

四、高级功能与优化

1. 处理多语言识别

动态切换识别语言：

func updateRecognizerLanguage(to localeIdentifier: String) {
    speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: localeIdentifier))
}

2. 离线识别模式

通过requiresOnDeviceRecognition属性启用离线识别（需iOS 13+）：

request.requiresOnDeviceRecognition = true // 仅限设备端处理

3. 性能优化策略

降低采样率：使用AVAudioFormat(commonFormat: .pcmFormatFloat32, sampleRate: 16000)减少数据量。
后台模式：在Info.plist中添加UIBackgroundModes并包含audio，支持后台录音。
错误重试机制：捕获SFSpeechErrorCode错误并实现自动重试逻辑。

五、完整代码示例

import UIKit
import Speech
import AVFoundation
class VoiceToTextViewController: UIViewController {
    private let speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))!
    private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
    private var recognitionTask: SFSpeechRecognitionTask?
    private let audioEngine = AVAudioEngine()
    @IBOutlet weak var textView: UITextView!
    @IBOutlet weak var recordButton: UIButton!
    override func viewDidLoad() {
        super.viewDidLoad()
        requestSpeechAuthorization()
    }
    @IBAction func toggleRecording(_ sender: UIButton) {
        if audioEngine.isRunning {
            stopRecording()
            recordButton.setTitle("开始录音", for: .normal)
        } else {
            try! startRecording()
            recordButton.setTitle("停止录音", for: .normal)
        }
    }
    private func startRecording() throws {
        recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
        guard let request = recognitionRequest else { return }
        request.shouldReportPartialResults = true
        recognitionTask = speechRecognizer.recognitionTask(with: request) { result, error in
            if let result = result {
                self.textView.text = result.bestTranscription.formattedString
            }
            if let error = error {
                print("错误: \(error.localizedDescription)")
                self.stopRecording()
            }
        }
        let audioSession = AVAudioSession.sharedInstance()
        try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
        try audioSession.setActive(true)
        let inputNode = audioEngine.inputNode
        let recordingFormat = inputNode.outputFormat(forBus: 0)
        inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, _ in
            request.append(buffer)
        }
        audioEngine.prepare()
        try audioEngine.start()
    }
    private func stopRecording() {
        audioEngine.stop()
        audioEngine.inputNode.removeTap(onBus: 0)
        recognitionTask?.cancel()
        recognitionTask = nil
        recognitionRequest = nil
    }
}

六、常见问题与解决方案

权限被拒：检查Info.plist是否包含NSSpeechRecognitionUsageDescription。
无识别结果：确保麦克风输入正常，且环境噪音低于60dB。
语言不支持：调用SFSpeechRecognizer.supportedLocales()获取可用语言列表。

通过以上步骤，开发者可快速集成iOS 10的Speech框架，构建高效、稳定的语音转文本应用。结合实际场景优化参数（如采样率、缓冲区大小），可进一步提升识别准确率与用户体验。