电气工程

PSRB: 波斯语语音识别评测基准

语音识别波斯语评测基准错误分析文章提出波斯语语音识别基准（PSRB），旨在解决波斯语作为低资源语言在语音识别评估中的挑战。该基准整合多样化的语言和声学条件，评估了十种ASR系统（包括商业和开源模型），分析性能差异和固有偏见。文章深入分析波斯语ASR转录错误，识别关键错误类型并提出加权替换错误指标（SW-WER），通过减少微小错误影响提升评估鲁棒性。研究发现ASR模型在标准波斯语表现良好，但在地方口音、儿童语音和特定语言挑战上表现不佳，强调需通过微调和多样化训练数据减少偏见。PSRB为波斯语ASR研究提供资源，并为其他低资源语言建立评测框架提供参考。

REWIND: 语音时间反转增强说话人表征

语音转换扩散模型说话人表征时间反转文章提出REWIND方法，通过全语句语音时间反转（STR）增强基于扩散模型的语音转换（VC）中说话人表征。核心发现：语音信号完全反转（x(l-t)）虽破坏语音内容（WER=100%），但保留音色/韵律特征（说话人识别准确率80.3%）。该方法在DDDM-VC框架中融合原始与反转语音的说话人嵌入，实现语言内容与说话人身份解耦。在LibriTTS和VCTK数据集上，REWIND使说话人相似度得分提升4.16%（余弦相似度0.79→0.83），同时保持MOS≥3.55，为少样本语音转换提供新范式。

PromptEVC: 基于自然语言提示的可控情感语音转换

情感语音转换自然语言提示语音合成深度学习文章介绍了PromptEVC，一种利用自然语言提示实现精确情感控制的语音转换方法。该方法通过情感描述器和提示映射器生成细粒度情感嵌入，结合韵律建模与控制模块调整节奏，并引入说话人编码器保留身份特征。实验表明，PromptEVC在情感转换、强度控制和混合情感合成方面优于现有方法，显著提升语音自然度与用户期望对齐能力。

ReverbFX: 基于混响插件的歌声去混响脉冲响应数据集

去混响歌声处理人工混响脉冲响应数据集文章提出ReverbFX数据集，首次从专业混响音频插件（Protoverb、SkyNet、TAL-Reverb-4、Valhalla Supermassive）采集1846条房间脉冲响应（RIR），覆盖RT60 0.31-52.08秒的多样人工混响特性。基于该数据集构建SingingReverbFX基准，结合94小时多语言歌声数据，验证了在人工混响场景下，使用插件RIR训练的生成模型（SGMSE+等）显著优于传统自然RIR训练的模型（POLQA提升0.59）。该研究为音乐制作中的去混响技术提供专用数据支持。

通过模型合并实现语音识别模型的鲁棒微调：应用于语音障碍识别

语音识别模型合并语音障碍文章针对语音基础模型(SFMs)在构音障碍语音识别中性能下降的问题，提出模型合并技术增强自动语音识别(ASR)的鲁棒性。以Whisper为基础模型，在语音无障碍项目(SAP)数据集上验证了三种合并策略：单轨迹合并(MAST)、多轨迹合并(MACT)和选择性轨迹合并(SMACT)。实验表明，最佳多轨迹合并策略相比传统微调实现WER相对降低12%，在长音频上降低16.2%。模型合并技术在不同数据规模下持续有效，且能推广至不同模型架构，为语音障碍识别提供零推理成本的高效适配方案。

MECAT: 细粒度音频理解基准

音频理解多专家模型评估指标文章介绍了MECAT，一个专为细粒度音频理解任务设计的基准测试。MECAT通过整合多个专家模型的分析结果，并结合Chain-of-Thought（CoT）大语言模型推理，生成了多视角、细粒度的音频描述和开放式问答对。此外，文章提出了一种新的评估指标DATE，该指标通过结合单样本语义相似性和跨样本区分性评分，能够更准确地衡量模型输出的细节和准确性。实验结果表明，当前最先进的音频模型在MECAT上的表现仍存在显著提升空间，尤其在复杂音频场景和内容无关任务中表现较差。

vTAD Challenge: 语音音色属性检测系统

语音处理音色属性检测自监督学习文章介绍了CUHK-EE团队为NCMMSC 2025 vTAD挑战赛开发的语音音色属性检测系统。该系统基于WavLM-Large模型提取鲁棒的语音特征，并通过两种Diff-Net变体（FFN和SE-ResFFN）比较语音对之间的音色属性强度。实验结果表明，WavLM-Large+FFN系统在未见过的说话人上表现更优，准确率达到77.96%，而WavLM-Large+SE-ResFFN在已知说话人上表现更佳，准确率达94.42%。文章还探讨了模型复杂性、说话人身份、标注主观性和数据不平衡等因素对系统性能的影响，为未来音色属性检测的鲁棒性和公平性改进提供了方向。