思必驰周强:AI赋能与传统信号技术融合下的实时音频通话革新

思必驰周强:AI赋能与传统信号技术融合下的实时音频通话革新

实时音频通话作为现代通信的核心场景,其技术演进始终围绕”低延迟、高清晰、强抗噪”三大核心需求展开。思必驰技术负责人周强指出,传统信号处理技术(如回声消除、噪声抑制)虽已形成成熟框架,但在复杂网络环境与多样化设备适配中仍面临挑战;而AI技术的引入,正通过数据驱动的方式重构音频处理范式,形成”传统技术筑基、AI技术赋能”的协同创新格局。

一、传统信号技术的核心价值与局限性

1.1 经典信号处理的技术基石

传统音频处理技术以数字信号处理(DSP)理论为基础,构建了实时通信的底层框架。其中,自适应滤波算法在回声消除(AEC)中表现突出,通过动态调整滤波器系数抵消扬声器信号与麦克风采集信号的耦合;维纳滤波与谱减法在噪声抑制(NS)领域形成经典方案,前者基于统计最优准则抑制噪声,后者通过频谱分析实现非平稳噪声的动态处理。

例如,WebRTC开源项目中采用的AEC3算法,通过双滤波器结构(线性自适应滤波+非线性后处理)实现了低延迟回声消除,其核心代码片段展示了自适应滤波器的迭代更新过程:

  1. // 简化版NLMS自适应滤波器更新
  2. void updateFilter(float* filter, const float* x, float d, float y, float mu) {
  3. float e = d - y; // 误差信号
  4. float power = 0.0f;
  5. for (int i = 0; i < FILTER_LENGTH; i++) {
  6. power += x[i] * x[i];
  7. }
  8. float step = mu * e / (power + EPSILON); // 归一化步长
  9. for (int i = 0; i < FILTER_LENGTH; i++) {
  10. filter[i] += step * x[i]; // 滤波器系数更新
  11. }
  12. }

1.2 复杂场景下的技术瓶颈

传统方案在理想网络条件下表现稳定,但在实际部署中暴露出三大缺陷:其一,固定参数算法难以适应动态网络抖动(如4G/5G切换时的延迟突变);其二,非线性噪声(如键盘敲击声、突发风噪)超出谱减法的处理能力;其三,多设备适配需针对不同麦克风阵列几何结构进行参数调优,开发成本高昂。

二、AI技术的突破性贡献

2.1 深度学习重构音频处理范式

AI技术通过数据驱动的方式,在三个层面实现突破:在噪声抑制方面,基于CRN(Convolutional Recurrent Network)的端到端模型可同时处理稳态噪声与非稳态噪声,其时频域联合建模能力显著优于传统谱减法;在回声消除领域,LSTM网络通过捕捉时序依赖关系,有效解决双讲场景(近端远端同时说话)下的滤波器发散问题;在声源定位方向,基于注意力机制的麦克风阵列波束形成算法,可自适应调整空间滤波器指向性。

以思必驰开发的AI-NS模型为例,其网络结构包含编码器(STFT+Conv2D)、注意力模块(Transformer Encoder)与解码器(Conv2D+iSTFT),训练数据涵盖10万小时真实场景噪声,在DNS Challenge 2022测试集中达到4.2的MOS评分,较传统方法提升0.8分。

2.2 模型轻量化与实时性优化

针对实时通信的毫秒级延迟要求,AI模型需在精度与效率间取得平衡。周强团队提出三项优化策略:其一,采用深度可分离卷积替代标准卷积,使参数量减少80%;其二,引入知识蒸馏技术,将大型教师模型的预测分布迁移至轻量学生模型;其三,开发动态计算路径,根据输入信号复杂度自动调整网络深度。

实验数据显示,优化后的AI-NS模型在骁龙865处理器上单帧处理延迟仅3.2ms,满足20ms端到端延迟的通信标准。其核心代码片段展示了模型量化过程:

  1. # TensorFlow Lite模型量化示例
  2. converter = tf.lite.TFLiteConverter.from_keras_model(model)
  3. converter.optimizations = [tf.lite.Optimize.DEFAULT]
  4. converter.representative_dataset = representative_data_gen # 代表性数据集
  5. converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8]
  6. converter.inference_input_type = tf.uint8
  7. converter.inference_output_type = tf.uint8
  8. quantized_model = converter.convert()

三、技术融合的实践路径

3.1 混合架构设计原则

思必驰提出的”AI+传统”混合架构遵循三项原则:其一,基础处理层保留传统算法(如线性回声消除),确保系统鲁棒性;其二,增强处理层引入AI模型(如非线性残差抑制),提升复杂场景性能;其三,决策层部署轻量级分类网络,动态选择处理路径。

以双讲场景处理为例,系统首先通过传统AEC消除线性回声,再由LSTM网络预测残余回声能量,最后根据分类网络输出决定是否启用AI增强的非线性后处理。测试表明,该方案在双讲场景下的回声残留较纯传统方案降低62%。

3.2 工程化部署关键点

实际部署需重点关注三点:其一,模型与DSP算法的时序同步,通过共享缓冲区与定时器中断实现帧级对齐;其二,硬件加速适配,针对不同平台(如ARM CPU、NPU)优化计算图;其三,动态参数调整,根据网络质量指标(如RTT、丢包率)实时调整AI模型与DSP算法的混合比例。

四、开发者技术建议

4.1 渐进式技术演进路线

建议开发者分三步推进:初期采用WebRTC等成熟框架快速构建基线系统;中期引入轻量级AI模型(如CRN-Lite)处理特定场景;长期构建混合架构,实现传统算法与AI模型的优势互补。

4.2 数据驱动的开发范式

强调建立覆盖多场景(如办公室、车载、户外)的训练数据集,建议采用合成数据与真实数据混合的训练策略。例如,通过房间脉冲响应(RIR)模拟生成不同混响条件下的训练样本,结合真实噪声库构建数据增强管道。

4.3 性能评估指标体系

除传统PESQ、POLQA等客观指标外,建议引入主观MOS评分与端到端延迟测试。特别需关注双讲场景下的回声残留、突发噪声下的语音可懂度、网络波动时的收敛速度等关键指标。

五、未来技术展望

周强指出,下一代实时音频通信将呈现三大趋势:其一,多模态融合,结合视觉信息(如唇形同步)提升音频处理精度;其二,联邦学习应用,在保护隐私前提下实现模型跨设备协同训练;其三,超低延迟编码,探索基于AI的感知编码技术,在10ms级延迟下实现透明音质。

技术融合的本质,在于通过AI弥补传统信号处理的静态缺陷,同时利用经典理论保障系统稳定性。思必驰的实践表明,当深度学习网络的泛化能力与传统算法的确定性相结合时,实时音频通信将突破现有性能边界,为远程协作、智能车载、元宇宙社交等场景提供更优质的语音交互体验。