主页范文电子科技本文

轻量级语音增强模型LCT-GAN

摘要

文章提出轻量级因果Transformer对抗网络(LCT-GAN),解决边缘设备语音增强的计算效率问题。核心创新包括:1)频时频(FTF)堆叠Transformer架构,通过参数共享和因果掩码实现全局依赖建模(计算量降低40%);2)对抗训练框架,结合多尺度/多周期判别器提升语音保真度。在Voicebank+Demand和DNS3数据集上,LCT-GAN仅用6%参数即匹配DeepFilterNet2性能(PESQ:3.07),较CCFNet+(Lite)减少9%参数和10%乘加运算(MACs)。该模型支持32ms低延迟部署,为边缘设备提供SotA级语音增强方案。

1. 轻量级语音增强挑战

边缘设备语音增强需平衡性能与计算效率。传统方案如DeepFilterNet系列依赖高参数量(2.1M),而RNN/CNN轻量模型(如CCFNet-Lite)因局部建模受限导致性能下降。文章提出LCT-GAN(图1),通过FTF-Transformer架构与对抗训练实现SotA级高效增强。

2. LCT-GAN架构设计

2.1 FTF-Transformer核心模块

突破传统时频交错堆叠的高计算瓶颈:

  • 参数共享策略:建模时间维度时共享频率维度参数(反之亦然),压缩GRU/MHA块特征尺寸
  • FTF三阶段流(图2):频率→时间→频率顺序建模,以16×16分组MHA(4头注意力)捕获全局依赖
  • 因果掩码:梯形掩码约束时间Transformer,实现32ms低延迟(STFT帧长512/16kHz)

2.2 对抗训练框架

生成器(U-Net基底)预测压缩理想比率掩码(cIRM):

\[ \widehat{IRM}_{\text{c}}(k,l) = \frac{|\widehat{s}(k,l)|^{0.3}}{|X(k,l)|^{0.3} + 10^{-5}} \]

判别器引入:

  • 多周期判别器:捕获长时语音结构
  • 多尺度判别器:学习周期性模式
  • 损失函数:多分辨率STFT损失(窗长{320,512,768})与对抗损失加权平衡(\(\lambda_{adv}=0.01\))

3. 关键实验结果

3.1 FTF架构有效性验证

时频组合建模显著优于单维度模型(表1):

瓶颈结构PESQ↑STOI↑参数量(M)
纯时间(TT)2.810.9140.18
纯频率(FF)2.890.9210.19
FTF(提案)3.070.9380.13

注:复数输出(RI/MCS映射)未提升性能却增加15% MACs,验证幅值估计的充分性

3.2 SotA模型对比

Voicebank+Demand数据集(表2):

  • DeepFilterNet2:参数量仅0.13M vs 2.1M(6%),PESQ达3.07 vs 3.08
  • CCFNet+(Lite):参数量↓9%,MACs↓10%,PESQ提升0.17
  • 启用感知对比拉伸(PCS)后:PESQ=3.21,超越DeepFilterNet3(3.19)

DNS3真实录音测试(表3):

  • DNS-MOS BAK评分:3.82(LCT-GAN)vs 3.71(DeepFilterNet3)
  • 噪声抑制方差降低37%,表明增强一致性提升

3.3 判别器贡献分析

对抗训练进一步提升:

  • PESQ提升0.14(无判别器:2.93 → 带判别器:3.07)
  • 语音成分保留优化(DNSMOS-OVL↑12%),且不损害降噪性能(BAK稳定)

4. 结论与展望

LCT-GAN通过FTF-Transformer与对抗训练的协同设计,实现参数量级压缩下的SotA性能。该模型在边缘设备部署优势显著:

  • 支持32ms低延迟因果处理
  • MACs仅4.2G/s(较CCFNet-Lite降低10%)
  • 消除DeepFilterNet的频谱带状伪影(音频样本:demo链接

未来将优化擦音/齿音弱成分的过抑制问题,探索FPGA端部署。

相关论文