文章提出即插即用说话人间注意力模块(ISAM),利用屏幕上共现的面孔增强目标说话人语音提取。该模块通过自注意力层处理灵活数量的共现面孔,捕捉跨说话人语音活动线索,解决传统方法因仅依赖目标面孔导致的混淆错误。ISAM可无缝集成至AV-DPRNN和AV-TFGridNet等模型,在VoxCeleb2(高度重叠)和MISP(稀疏重叠)数据集上显著提升SI-SNRi指标,跨数据集评估验证其强泛化能力。
真实场景中语音常受重叠背景干扰(鸡尾酒会问题),视听说话人提取利用目标说话人面部记录分离语音。现有方法仅关注目标面孔,忽略屏幕上其他共现面孔提供的语音活动线索,导致混淆与抑制错误。文章提出ISAM模块,通过建模共现面孔(如图1红框)与目标面孔(绿框)的关联性,提升复杂多人环境下的提取精度。该设计首次实现灵活数量面孔的即插即用集成,解决稀疏重叠场景中语音活动检测的挑战。
ISAM作为轻量级模块(图2虚线框)嵌入说话人提取器的每个处理块末端。给定混合语音 \(x = s + \sum b_i\),所有可用面孔(目标 \(v_s\) 与干扰者 \(v_{b_i}\))经视觉编码后,ISAM在说话人轴上执行自注意力:
训练中引入随机面孔dropout:部分场景屏蔽共现面孔,确保模块在面孔缺失时的鲁棒性。无关面孔(稀疏场景静默者)被自动忽略,增强实用性。
ISAM兼容主流提取架构:
目标函数采用负尺度不变信噪比(SI-SNR):
\[ \mathcal{L}_{\text{SI-SNR}} = -20\log_{10}\frac{\lvert \frac{\langle \hat{s},s \rangle}{\|s\|^2}s \rvert}{\lVert \hat{s} - \frac{\langle \hat{s},s \rangle}{\|s\|^2}s \rVert} \]
在四大多语言数据集验证:
ISAM优势更显著(表3-4):
VoxCeleb2训练模型在LRS2/LRS3测试(表5-8):
文章提出的ISAM模块通过建模共现面孔的互补语音活动线索,显著提升视听说话人提取在高度/稀疏重叠场景的鲁棒性。仅增加0.2M参数即可实现即插即用集成,跨数据集评估验证其泛化潜力,为复杂真实环境提供实用解决方案。