主页 › 范文 › 电子科技 › 本文

轻量级语音增强模型LCT-GAN

摘要

文章提出轻量级因果Transformer对抗网络（LCT-GAN），解决边缘设备语音增强的计算效率问题。核心创新包括：1）频时频（FTF）堆叠Transformer架构，通过参数共享和因果掩码实现全局依赖建模（计算量降低40%）；2）对抗训练框架，结合多尺度/多周期判别器提升语音保真度。在Voicebank+Demand和DNS3数据集上，LCT-GAN仅用6%参数即匹配DeepFilterNet2性能（PESQ:3.07），较CCFNet+(Lite)减少9%参数和10%乘加运算（MACs）。该模型支持32ms低延迟部署，为边缘设备提供SotA级语音增强方案。

1. 轻量级语音增强挑战

边缘设备语音增强需平衡性能与计算效率。传统方案如DeepFilterNet系列依赖高参数量（2.1M），而RNN/CNN轻量模型（如CCFNet-Lite）因局部建模受限导致性能下降。文章提出LCT-GAN（图1），通过FTF-Transformer架构与对抗训练实现SotA级高效增强。

2. LCT-GAN架构设计

2.1 FTF-Transformer核心模块

突破传统时频交错堆叠的高计算瓶颈：

参数共享策略：建模时间维度时共享频率维度参数（反之亦然），压缩GRU/MHA块特征尺寸
FTF三阶段流（图2）：频率→时间→频率顺序建模，以16×16分组MHA（4头注意力）捕获全局依赖
因果掩码：梯形掩码约束时间Transformer，实现32ms低延迟（STFT帧长512/16kHz）

2.2 对抗训练框架

生成器（U-Net基底）预测压缩理想比率掩码（cIRM）：

\[ \widehat{IRM}_{\text{c}}(k,l) = \frac{|\widehat{s}(k,l)|^{0.3}}{|X(k,l)|^{0.3} + 10^{-5}} \]

判别器引入：

多周期判别器：捕获长时语音结构
多尺度判别器：学习周期性模式
损失函数：多分辨率STFT损失（窗长{320,512,768}）与对抗损失加权平衡（\(\lambda_{adv}=0.01\)）

3. 关键实验结果

3.1 FTF架构有效性验证

时频组合建模显著优于单维度模型（表1）：

瓶颈结构	PESQ↑	STOI↑	参数量(M)
纯时间(TT)	2.81	0.914	0.18
纯频率(FF)	2.89	0.921	0.19
FTF（提案）	3.07	0.938	0.13

注：复数输出（RI/MCS映射）未提升性能却增加15% MACs，验证幅值估计的充分性

3.2 SotA模型对比

Voicebank+Demand数据集（表2）：

较DeepFilterNet2：参数量仅0.13M vs 2.1M（6%），PESQ达3.07 vs 3.08
较CCFNet+(Lite)：参数量↓9%，MACs↓10%，PESQ提升0.17
启用感知对比拉伸（PCS）后：PESQ=3.21，超越DeepFilterNet3（3.19）

DNS3真实录音测试（表3）：

DNS-MOS BAK评分：3.82（LCT-GAN）vs 3.71（DeepFilterNet3）
噪声抑制方差降低37%，表明增强一致性提升

3.3 判别器贡献分析

对抗训练进一步提升：

PESQ提升0.14（无判别器：2.93 → 带判别器：3.07）
语音成分保留优化（DNSMOS-OVL↑12%），且不损害降噪性能（BAK稳定）

4. 结论与展望

LCT-GAN通过FTF-Transformer与对抗训练的协同设计，实现参数量级压缩下的SotA性能。该模型在边缘设备部署优势显著：

支持32ms低延迟因果处理
MACs仅4.2G/s（较CCFNet-Lite降低10%）
消除DeepFilterNet的频谱带状伪影（音频样本：demo链接）

未来将优化擦音/齿音弱成分的过抑制问题，探索FPGA端部署。