主页范文电子科技本文

ISAM: 鲁棒视听说话人提取的即插即用共现面部注意力

摘要

文章提出即插即用说话人间注意力模块(ISAM),利用屏幕上共现的面孔增强目标说话人语音提取。该模块通过自注意力层处理灵活数量的共现面孔,捕捉跨说话人语音活动线索,解决传统方法因仅依赖目标面孔导致的混淆错误。ISAM可无缝集成至AV-DPRNN和AV-TFGridNet等模型,在VoxCeleb2(高度重叠)和MISP(稀疏重叠)数据集上显著提升SI-SNRi指标,跨数据集评估验证其强泛化能力。

1. 引言

真实场景中语音常受重叠背景干扰(鸡尾酒会问题),视听说话人提取利用目标说话人面部记录分离语音。现有方法仅关注目标面孔,忽略屏幕上其他共现面孔提供的语音活动线索,导致混淆与抑制错误。文章提出ISAM模块,通过建模共现面孔(如图1红框)与目标面孔(绿框)的关联性,提升复杂多人环境下的提取精度。该设计首次实现灵活数量面孔的即插即用集成,解决稀疏重叠场景中语音活动检测的挑战。

2. ISAM方法设计

2.1 核心架构

ISAM作为轻量级模块(图2虚线框)嵌入说话人提取器的每个处理块末端。给定混合语音 \(x = s + \sum b_i\),所有可用面孔(目标 \(v_s\) 与干扰者 \(v_{b_i}\))经视觉编码后,ISAM在说话人轴上执行自注意力:

  • 采用自注意力而非交叉注意力,因共现面孔与目标面孔嵌入分布一致
  • 层归一化优化跨说话人关联,目标嵌入可查询所有说话人嵌入

训练中引入随机面孔dropout:部分场景屏蔽共现面孔,确保模块在面孔缺失时的鲁棒性。无关面孔(稀疏场景静默者)被自动忽略,增强实用性。

2.2 模型集成

ISAM兼容主流提取架构:

  • AV-DPRNN:ISAM嵌入块内/块间RNN处理后,参数从15.3M增至15.5M
  • AV-TFGridNet:ISAM处理时频bin级特征,参数从20.8M增至21.0M

目标函数采用负尺度不变信噪比(SI-SNR):

\[ \mathcal{L}_{\text{SI-SNR}} = -20\log_{10}\frac{\lvert \frac{\langle \hat{s},s \rangle}{\|s\|^2}s \rvert}{\lVert \hat{s} - \frac{\langle \hat{s},s \rangle}{\|s\|^2}s \rVert} \]

3. 实验结果

在四大多语言数据集验证:

3.1 高度重叠场景(VoxCeleb2)

  • 2-说话人(表1):AV-DPRNN-ISAM在2-面孔时SI-SNRi达12.5 dB,较基线(11.5 dB)提升1.0 dB;AV-TFGridNet-ISAM达14.5 dB(+0.8 dB)
  • 3-说话人(表2):当所有面孔可见时,AV-DPRNN-ISAM的SI-SNRi升至13.3 dB(+2.7 dB),AV-TFGridNet-ISAM达15.6 dB(+1.4 dB)

3.2 稀疏重叠场景(MISP)

ISAM优势更显著(表3-4):

  • AV-TFGridNet-ISAM在2-面孔时SI-SNRi提升2.8 dB(VoxCeleb2仅升0.6 dB)
  • 3-面孔时SI-SNRi提升3.2 dB(VoxCeleb2仅升1.3 dB),因模块有效联合语音活动检测与分离

3.3 跨数据集泛化

VoxCeleb2训练模型在LRS2/LRS3测试(表5-8):

  • LRS2上AV-TFGridNet-ISAM的SI-SNRi达15.0 dB(2-面孔)
  • LRS3上达16.9 dB,性能趋势与源数据集一致,证明模块强适应性

4. 结论

文章提出的ISAM模块通过建模共现面孔的互补语音活动线索,显著提升视听说话人提取在高度/稀疏重叠场景的鲁棒性。仅增加0.2M参数即可实现即插即用集成,跨数据集评估验证其泛化潜力,为复杂真实环境提供实用解决方案。

相关论文