主页范文电子科技本文

多模态ALS语音障碍评估

摘要

文章提出基于多模态分析的ALS语音障碍客观评估方法。研究使用多伦多神经面部数据集(含11名ALS患者和11名健康对照),从句子重复任务中提取33个声学特征(基频、抖动、信噪比等)和运动学特征(唇颌运动速度、对称性等)。通过支持向量回归(SVR)、多层感知机(MLP)和极限梯度提升(XGB)模型预测临床言语障碍评分(5-25分)。结果表明:多模态SVR模型表现最佳(均方根误差RMSE=0.93),较单模态音频(RMSE=0.99)和视频(RMSE=1.30)模型误差降低24%。该方法为ALS延髓功能障碍提供低成本客观评估工具,支持家庭环境远程监测。

1. 研究背景

肌萎缩侧索硬化症(ALS)导致延髓功能障碍,传统临床评估依赖主观量表(如5分量表)。文章提出多模态机器学习方法,结合音频-视频分析实现客观评估(图1)。该方法可部署于智能手机,支持家庭环境远程监测,解决现有方法延迟诊断问题。

2. 方法设计

2.1 数据集与任务

使用Toronto NeuroFace数据集:

  • 11名ALS患者(6♀,45-75岁)和11名健康对照(4♀,33-78岁)
  • 核心任务:重复句子"Buy Bobby a puppy"(BBP)10次
  • 临床标签:两位语言病理学家(SLP)根据对称性、运动范围、速度等维度评分(总分5-25分)

2.2 多模态特征提取

构建33维特征向量(表1):

  • 声学特征(18维):基频(F0)、抖动(jitter)、信噪比(HNR)、语句时长、词错误率等(通过Parselmouth和Vosk API提取)
  • 运动学特征(15维):唇颌运动累积路径、口部面积极值、左右嘴角运动相关性等(基于68个面部标志点,通过SFD和FAN算法计算)

所有运动学特征经眼间距标准化:\[ f_{\text{norm}} = \frac{f}{\text{intercanthal distance}} \]

2.3 回归模型

采用留一被试交叉验证训练三类模型:

  • SVR:优化核函数(线性/RBF/sigmoid)及超参数 \( C \in [10^{-4},10^{4}] \), \(\varepsilon \in [0.01,1] \)
  • MLP:搜索最佳隐藏层结构(10-200节点)及激活函数
  • XGB:调整树深度(3-8)、学习率(0.001-0.3)等

3. 关键结果

3.1 模型性能对比

多模态SVR显著优于单模态模型(表1):

模态模型全局RMSEALS组RMSE健康组RMSE
音频SVR1.081.410.80
XGB0.991.230.77
视频XGB1.301.730.95
音频-视频SVR0.931.290.62

注:多模态SVR对健康组预测更精确(RMSE=0.62),ALS组因临床异质性误差较高(RMSE=1.29)

3.2 误差分布分析

多模态SVR预测结果(图2)显示:

  • 轻中度障碍(评分<8.5)预测准确(近对角线分布)
  • 重度障碍(评分≥8.5)存在保守性高估(红点位于对角线上方)
  • 局限性:仅3名重度ALS患者导致该区间训练不足

4. 讨论与展望

多模态方法较单模态优势显著:

  • 声学特征捕捉发声稳定性(如声带功能障碍导致的jitter升高)
  • 运动学特征反映肌肉强度/协调性退化(如唇颌运动速度降低)
  • 二者互补提升预测鲁棒性(较纯音频模型RMSE降低6%)

未来方向:扩大样本量(尤其重度患者)、增加语音任务多样性、探索纵向监测模型。该方法有望成为临床标准化评估的补充工具,支持ALS早期干预。

相关论文