引言

在移动应用开发中，语音转文字功能已成为提升用户体验的重要工具。iOS系统提供的Speech框架为开发者提供了高效、稳定的语音识别能力，支持实时转录、多语言识别及上下文理解等高级特性。本文将系统讲解如何利用Speech框架实现完整的语音转文字功能，从基础配置到高级优化，帮助开发者快速构建可靠的语音识别服务。

一、Speech框架核心组件解析

Speech框架主要由SFSpeechRecognizer、SFSpeechAudioBufferRecognitionRequest和SFSpeechRecognitionTask三个核心类构成：

SFSpeechRecognizer：语音识别器主类，负责管理识别任务的生命周期。需注意其仅在支持语音识别的设备上有效（iOS 10+）。
音频请求对象：SFSpeechAudioBufferRecognitionRequest用于处理实时音频流，SFSpeechURLRecognitionRequest则适用于预录制的音频文件。
识别任务：SFSpeechRecognitionTask封装了识别结果和状态回调，通过代理方法实时反馈识别进度。

二、权限配置与初始化

2.1 添加隐私权限

在Info.plist中必须添加NSSpeechRecognitionUsageDescription字段，明确说明语音识别的使用目的（如”本应用需要语音识别功能以实现语音输入”）。未配置此项将导致运行时崩溃。

2.2 创建识别器实例

import Speech
let audioEngine = AVAudioEngine()
var speechRecognizer: SFSpeechRecognizer?
var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
var recognitionTask: SFSpeechRecognitionTask?
func setupRecognizer() {
    speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN")) // 中文识别
    guard let recognizer = speechRecognizer else {
        print("语音识别器初始化失败")
        return
    }
    // 检查服务可用性
    if !recognizer.isAvailable {
        print("语音识别服务当前不可用")
    }
}

三、实时语音识别实现

3.1 音频引擎配置

func startRecording() throws {
    // 配置音频会话
    let audioSession = AVAudioSession.sharedInstance()
    try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
    try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
    // 创建识别请求
    recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
    guard let request = recognitionRequest else {
        fatalError("无法创建识别请求")
    }
    request.shouldReportPartialResults = true // 启用实时反馈
    // 启动识别任务
    recognitionTask = speechRecognizer?.recognitionTask(with: request) { result, error in
        if let result = result {
            let transcribedText = result.bestTranscription.formattedString
            print("实时识别结果: \(transcribedText)")
            // 处理最终结果（result.isFinal == true时）
        }
        if let error = error {
            print("识别错误: \(error.localizedDescription)")
            self.stopRecording()
        }
    }
    // 配置音频输入
    let inputNode = audioEngine.inputNode
    let recordingFormat = inputNode.outputFormat(forBus: 0)
    inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer: AVAudioPCMBuffer, when: AVAudioTime) in
        self.recognitionRequest?.append(buffer)
    }
    audioEngine.prepare()
    try audioEngine.start()
}

3.2 停止录音与清理资源

func stopRecording() {
    if audioEngine.isRunning {
        audioEngine.stop()
        recognitionRequest?.endAudio()
        audioEngine.inputNode.removeTap(onBus: 0)
    }
    recognitionTask?.cancel()
    recognitionTask = nil
}

四、高级功能实现

4.1 多语言支持

通过修改Locale参数实现多语言识别：

// 英文识别
let enRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "en-US"))
// 日语识别
let jaRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "ja-JP"))

4.2 离线识别配置

在iOS 13+系统中，可通过requiresOnDeviceRecognition属性启用离线识别：

let config = SFSpeechRecognizer.AuthorizationStatus.authorized
if #available(iOS 13, *) {
    speechRecognizer = SFSpeechRecognizer(locale: Locale.current)
    speechRecognizer?.supportsOnDeviceRecognition = true
    recognitionRequest?.requiresOnDeviceRecognition = true // 强制离线识别
}

4.3 错误处理机制

func handleRecognitionError(_ error: Error) {
    switch error {
    case SFSpeechRecognizerError.audioError:
        showAlert(title: "音频错误", message: "无法访问麦克风")
    case SFSpeechRecognizerError.insufficientPermissions:
        showAlert(title: "权限不足", message: "请在设置中开启麦克风权限")
    case SFSpeechRecognizerError.recognizerNotAvailable:
        showAlert(title: "服务不可用", message: "当前设备不支持语音识别")
    default:
        showAlert(title: "识别错误", message: error.localizedDescription)
    }
}

五、性能优化建议

音频格式优化：使用16kHz单声道音频可获得最佳识别效果
内存管理：及时释放不再使用的识别任务和请求对象
网络策略：离线模式下禁用网络请求可降低功耗
结果过滤：对实时结果进行后处理，去除重复词和无关字符

六、常见问题解决方案

6.1 识别延迟问题

启用shouldReportPartialResults获取中间结果
调整AVAudioPCMBuffer的缓冲区大小（建议512-1024样本）
在后台线程处理识别结果，避免阻塞主线程

6.2 准确率提升技巧

限制识别语言范围（避免自动语言检测）
在安静环境下使用
对专业术语建立自定义词汇表（iOS 15+支持）

七、完整示例代码

import UIKit
import Speech
import AVFoundation
class VoiceRecognitionViewController: UIViewController {
    let audioEngine = AVAudioEngine()
    var speechRecognizer: SFSpeechRecognizer?
    var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
    var recognitionTask: SFSpeechRecognitionTask?
    override func viewDidLoad() {
        super.viewDidLoad()
        setupSpeechRecognizer()
        requestAuthorization()
    }
    func setupSpeechRecognizer() {
        speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))
    }
    func requestAuthorization() {
        SFSpeechRecognizer.requestAuthorization { authStatus in
            DispatchQueue.main.async {
                switch authStatus {
                case .authorized:
                    print("语音识别权限已授权")
                case .denied:
                    self.showAlert(title: "权限被拒绝", message: "请在设置中开启麦克风权限")
                case .restricted:
                    self.showAlert(title: "权限受限", message: "无法访问语音识别服务")
                case .notDetermined:
                    print("权限未确定")
                @unknown default:
                    break
                }
            }
        }
    }
    @IBAction func startRecording(_ sender: UIButton) {
        do {
            try startAudioEngine()
            sender.setTitle("停止录音", for: .normal)
        } catch {
            showAlert(title: "错误", message: error.localizedDescription)
        }
    }
    func startAudioEngine() throws {
        let audioSession = AVAudioSession.sharedInstance()
        try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)
        try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
        recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
        guard let request = recognitionRequest else {
            fatalError("无法创建识别请求")
        }
        request.shouldReportPartialResults = true
        recognitionTask = speechRecognizer?.recognitionTask(with: request) { result, error in
            if let result = result {
                let text = result.bestTranscription.formattedString
                print("识别结果: \(text)")
                if result.isFinal {
                    DispatchQueue.main.async {
                        // 更新UI显示最终结果
                    }
                }
            }
            if let error = error {
                self.handleRecognitionError(error)
            }
        }
        let inputNode = audioEngine.inputNode
        let recordingFormat = inputNode.outputFormat(forBus: 0)
        inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, _ in
            self.recognitionRequest?.append(buffer)
        }
        audioEngine.prepare()
        try audioEngine.start()
    }
    @IBAction func stopRecording(_ sender: UIButton) {
        if audioEngine.isRunning {
            audioEngine.stop()
            recognitionRequest?.endAudio()
            audioEngine.inputNode.removeTap(onBus: 0)
        }
        recognitionTask?.cancel()
        recognitionTask = nil
        sender.setTitle("开始录音", for: .normal)
    }
    func showAlert(title: String, message: String) {
        let alert = UIAlertController(title: title, message: message, preferredStyle: .alert)
        alert.addAction(UIAlertAction(title: "确定", style: .default))
        present(alert, animated: true)
    }
    func handleRecognitionError(_ error: Error) {
        // 实现错误处理逻辑
    }
}

结论

Speech框架为iOS开发者提供了强大而灵活的语音识别能力，通过合理配置音频引擎、优化识别参数和实施完善的错误处理，可以构建出稳定高效的语音转文字应用。在实际开发中，建议结合具体场景进行功能定制，如添加标点符号预测、说话人分离等高级特性，以提升用户体验。随着iOS系统的持续演进，Speech框架的功能也将不断完善，值得开发者持续关注。

iOS Speech框架实战：语音转文字全流程解析

引言