主页 ›
学科分类 ›
电气工程论文
电气工程
语音识别
波斯语
评测基准
错误分析
文章提出波斯语语音识别基准(PSRB),旨在解决波斯语作为低资源语言在语音识别评估中的挑战。该基准整合多样化的语言和声学条件,评估了十种ASR系统(包括商业和开源模型),分析性能差异和固有偏见。文章深入分析波斯语ASR转录错误,识别关键错误类型并提出加权替换错误指标(SW-WER),通过减少微小错误影响提升评估鲁棒性。研究发现ASR模型在标准波斯语表现良好,但在地方口音、儿童语音和特定语言挑战上表现不佳,强调需通过微调和多样化训练数据减少偏见。PSRB为波斯语ASR研究提供资源,并为其他低资源语言建立评测框架提供参考。
语音转换
扩散模型
说话人表征
时间反转
文章提出REWIND方法,通过全语句语音时间反转(STR)增强基于扩散模型的语音转换(VC)中说话人表征。核心发现:语音信号完全反转(x(l-t))虽破坏语音内容(WER=100%),但保留音色/韵律特征(说话人识别准确率80.3%)。该方法在DDDM-VC框架中融合原始与反转语音的说话人嵌入,实现语言内容与说话人身份解耦。在LibriTTS和VCTK数据集上,REWIND使说话人相似度得分提升4.16%(余弦相似度0.79→0.83),同时保持MOS≥3.55,为少样本语音转换提供新范式。
情感语音转换
自然语言提示
语音合成
深度学习
文章介绍了PromptEVC,一种利用自然语言提示实现精确情感控制的语音转换方法。该方法通过情感描述器和提示映射器生成细粒度情感嵌入,结合韵律建模与控制模块调整节奏,并引入说话人编码器保留身份特征。实验表明,PromptEVC在情感转换、强度控制和混合情感合成方面优于现有方法,显著提升语音自然度与用户期望对齐能力。
去混响
歌声处理
人工混响
脉冲响应数据集
文章提出ReverbFX数据集,首次从专业混响音频插件(Protoverb、SkyNet、TAL-Reverb-4、Valhalla Supermassive)采集1846条房间脉冲响应(RIR),覆盖RT60 0.31-52.08秒的多样人工混响特性。基于该数据集构建SingingReverbFX基准,结合94小时多语言歌声数据,验证了在人工混响场景下,使用插件RIR训练的生成模型(SGMSE+等)显著优于传统自然RIR训练的模型(POLQA提升0.59)。该研究为音乐制作中的去混响技术提供专用数据支持。
语音识别
模型合并
语音障碍
文章针对语音基础模型(SFMs)在构音障碍语音识别中性能下降的问题,提出模型合并技术增强自动语音识别(ASR)的鲁棒性。以Whisper为基础模型,在语音无障碍项目(SAP)数据集上验证了三种合并策略:单轨迹合并(MAST)、多轨迹合并(MACT)和选择性轨迹合并(SMACT)。实验表明,最佳多轨迹合并策略相比传统微调实现WER相对降低12%,在长音频上降低16.2%。模型合并技术在不同数据规模下持续有效,且能推广至不同模型架构,为语音障碍识别提供零推理成本的高效适配方案。
音频理解
多专家模型
评估指标
文章介绍了MECAT,一个专为细粒度音频理解任务设计的基准测试。MECAT通过整合多个专家模型的分析结果,并结合Chain-of-Thought(CoT)大语言模型推理,生成了多视角、细粒度的音频描述和开放式问答对。此外,文章提出了一种新的评估指标DATE,该指标通过结合单样本语义相似性和跨样本区分性评分,能够更准确地衡量模型输出的细节和准确性。实验结果表明,当前最先进的音频模型在MECAT上的表现仍存在显著提升空间,尤其在复杂音频场景和内容无关任务中表现较差。
语音处理
音色属性检测
自监督学习
文章介绍了CUHK-EE团队为NCMMSC 2025 vTAD挑战赛开发的语音音色属性检测系统。该系统基于WavLM-Large模型提取鲁棒的语音特征,并通过两种Diff-Net变体(FFN和SE-ResFFN)比较语音对之间的音色属性强度。实验结果表明,WavLM-Large+FFN系统在未见过的说话人上表现更优,准确率达到77.96%,而WavLM-Large+SE-ResFFN在已知说话人上表现更佳,准确率达94.42%。文章还探讨了模型复杂性、说话人身份、标注主观性和数据不平衡等因素对系统性能的影响,为未来音色属性检测的鲁棒性和公平性改进提供了方向。
语音处理
助听器
深度学习
文章提出了跨域特征重要性(FiDo)方法,用于改进助听器中的非侵入式语音清晰度预测。FiDo通过多头自注意力机制和特征级联策略,有效捕捉不同声学特征的重要性。实验结果表明,将FiDo集成到MBI-Net+模型中,可使RMSE降低7.62%,并在2023年Clarity预测挑战赛上超越最佳系统3.98%。研究验证了早期注意力机制和跨域特征融合在语音清晰度预测中的有效性。
语音交互
全双工系统
评估基准
文章介绍了Full-Duplex-Bench v1.5,一个用于评估全双工语音模型重叠处理能力的模块化基准测试框架。该框架模拟了四种重叠场景:用户打断、听众反馈、侧边对话和背景语音,支持开源和商业模型的统一评估。实验结果表明,现有模型在处理重叠语音时主要采用两种策略:快速修复优先和连续性优先。基准测试还揭示了模型在响应延迟和语音质量适应方面的表现差异,为全双工语音系统的开发和优化提供了重要参考。
语音识别
动态参数
性别无关
低资源语言
文章探讨了利用动态参数提升越南语自动语音识别(ASR)性能的方法。通过分析频谱子带中心频率(SSCF)的极坐标参数,文章提出了一种能够捕捉语音动态特性并减少频谱变化的特征提取方法。该方法将极坐标参数与梅尔频率倒谱系数(MFCC)结合,显著降低了词错误率,并表现出比基线MFCC更强的性别无关性。此外,文章还引入了SSCF0作为基频(F0)的伪特征,以更好地处理越南语的声调信息。实验结果表明,所提方法在越南语ASR任务中表现优异,尤其在低资源环境下具有重要应用价值。