文章提出轻量级因果Transformer对抗网络(LCT-GAN),解决边缘设备语音增强的计算效率问题。核心创新包括:1)频时频(FTF)堆叠Transformer架构,通过参数共享和因果掩码实现全局依赖建模(计算量降低40%);2)对抗训练框架,结合多尺度/多周期判别器提升语音保真度。在Voicebank+Demand和DNS3数据集上,LCT-GAN仅用6%参数即匹配DeepFilterNet2性能(PESQ:3.07),较CCFNet+(Lite)减少9%参数和10%乘加运算(MACs)。该模型支持32ms低延迟部署,为边缘设备提供SotA级语音增强方案。
边缘设备语音增强需平衡性能与计算效率。传统方案如DeepFilterNet系列依赖高参数量(2.1M),而RNN/CNN轻量模型(如CCFNet-Lite)因局部建模受限导致性能下降。文章提出LCT-GAN(图1),通过FTF-Transformer架构与对抗训练实现SotA级高效增强。
突破传统时频交错堆叠的高计算瓶颈:
生成器(U-Net基底)预测压缩理想比率掩码(cIRM):
\[ \widehat{IRM}_{\text{c}}(k,l) = \frac{|\widehat{s}(k,l)|^{0.3}}{|X(k,l)|^{0.3} + 10^{-5}} \]
判别器引入:
时频组合建模显著优于单维度模型(表1):
| 瓶颈结构 | PESQ↑ | STOI↑ | 参数量(M) |
|---|---|---|---|
| 纯时间(TT) | 2.81 | 0.914 | 0.18 |
| 纯频率(FF) | 2.89 | 0.921 | 0.19 |
| FTF(提案) | 3.07 | 0.938 | 0.13 |
注:复数输出(RI/MCS映射)未提升性能却增加15% MACs,验证幅值估计的充分性
Voicebank+Demand数据集(表2):
DNS3真实录音测试(表3):
对抗训练进一步提升:
LCT-GAN通过FTF-Transformer与对抗训练的协同设计,实现参数量级压缩下的SotA性能。该模型在边缘设备部署优势显著:
未来将优化擦音/齿音弱成分的过抑制问题,探索FPGA端部署。