主页 › 范文 › 电子科技 › 本文

ISAM: 鲁棒视听说话人提取的即插即用共现面部注意力

摘要

文章提出即插即用说话人间注意力模块（ISAM），利用屏幕上共现的面孔增强目标说话人语音提取。该模块通过自注意力层处理灵活数量的共现面孔，捕捉跨说话人语音活动线索，解决传统方法因仅依赖目标面孔导致的混淆错误。ISAM可无缝集成至AV-DPRNN和AV-TFGridNet等模型，在VoxCeleb2（高度重叠）和MISP（稀疏重叠）数据集上显著提升SI-SNRi指标，跨数据集评估验证其强泛化能力。

1. 引言

真实场景中语音常受重叠背景干扰（鸡尾酒会问题），视听说话人提取利用目标说话人面部记录分离语音。现有方法仅关注目标面孔，忽略屏幕上其他共现面孔提供的语音活动线索，导致混淆与抑制错误。文章提出ISAM模块，通过建模共现面孔（如图1红框）与目标面孔（绿框）的关联性，提升复杂多人环境下的提取精度。该设计首次实现灵活数量面孔的即插即用集成，解决稀疏重叠场景中语音活动检测的挑战。

2. ISAM方法设计

2.1 核心架构

ISAM作为轻量级模块（图2虚线框）嵌入说话人提取器的每个处理块末端。给定混合语音 \(x = s + \sum b_i\)，所有可用面孔（目标 \(v_s\) 与干扰者 \(v_{b_i}\)）经视觉编码后，ISAM在说话人轴上执行自注意力：

采用自注意力而非交叉注意力，因共现面孔与目标面孔嵌入分布一致
层归一化优化跨说话人关联，目标嵌入可查询所有说话人嵌入

训练中引入随机面孔dropout：部分场景屏蔽共现面孔，确保模块在面孔缺失时的鲁棒性。无关面孔（稀疏场景静默者）被自动忽略，增强实用性。

2.2 模型集成

ISAM兼容主流提取架构：

AV-DPRNN：ISAM嵌入块内/块间RNN处理后，参数从15.3M增至15.5M
AV-TFGridNet：ISAM处理时频bin级特征，参数从20.8M增至21.0M

目标函数采用负尺度不变信噪比（SI-SNR）：

\[ \mathcal{L}_{\text{SI-SNR}} = -20\log_{10}\frac{\lvert \frac{\langle \hat{s},s \rangle}{\|s\|^2}s \rvert}{\lVert \hat{s} - \frac{\langle \hat{s},s \rangle}{\|s\|^2}s \rVert} \]

3. 实验结果

在四大多语言数据集验证：

3.1 高度重叠场景（VoxCeleb2）

2-说话人（表1）：AV-DPRNN-ISAM在2-面孔时SI-SNRi达12.5 dB，较基线（11.5 dB）提升1.0 dB；AV-TFGridNet-ISAM达14.5 dB（+0.8 dB）
3-说话人（表2）：当所有面孔可见时，AV-DPRNN-ISAM的SI-SNRi升至13.3 dB（+2.7 dB），AV-TFGridNet-ISAM达15.6 dB（+1.4 dB）

3.2 稀疏重叠场景（MISP）

ISAM优势更显著（表3-4）：

AV-TFGridNet-ISAM在2-面孔时SI-SNRi提升2.8 dB（VoxCeleb2仅升0.6 dB）
3-面孔时SI-SNRi提升3.2 dB（VoxCeleb2仅升1.3 dB），因模块有效联合语音活动检测与分离

3.3 跨数据集泛化

VoxCeleb2训练模型在LRS2/LRS3测试（表5-8）：

LRS2上AV-TFGridNet-ISAM的SI-SNRi达15.0 dB（2-面孔）
LRS3上达16.9 dB，性能趋势与源数据集一致，证明模块强适应性

4. 结论

文章提出的ISAM模块通过建模共现面孔的互补语音活动线索，显著提升视听说话人提取在高度/稀疏重叠场景的鲁棒性。仅增加0.2M参数即可实现即插即用集成，跨数据集评估验证其泛化潜力，为复杂真实环境提供实用解决方案。