主页 › 范文 › 电子科技 › 本文

多模态ALS语音障碍评估

摘要

文章提出基于多模态分析的ALS语音障碍客观评估方法。研究使用多伦多神经面部数据集（含11名ALS患者和11名健康对照），从句子重复任务中提取33个声学特征（基频、抖动、信噪比等）和运动学特征（唇颌运动速度、对称性等）。通过支持向量回归（SVR）、多层感知机（MLP）和极限梯度提升（XGB）模型预测临床言语障碍评分（5-25分）。结果表明：多模态SVR模型表现最佳（均方根误差RMSE=0.93），较单模态音频（RMSE=0.99）和视频（RMSE=1.30）模型误差降低24%。该方法为ALS延髓功能障碍提供低成本客观评估工具，支持家庭环境远程监测。

1. 研究背景

肌萎缩侧索硬化症（ALS）导致延髓功能障碍，传统临床评估依赖主观量表（如5分量表）。文章提出多模态机器学习方法，结合音频-视频分析实现客观评估（图1）。该方法可部署于智能手机，支持家庭环境远程监测，解决现有方法延迟诊断问题。

2. 方法设计

2.1 数据集与任务

使用Toronto NeuroFace数据集：

11名ALS患者（6♀，45-75岁）和11名健康对照（4♀，33-78岁）
核心任务：重复句子"Buy Bobby a puppy"（BBP）10次
临床标签：两位语言病理学家(SLP)根据对称性、运动范围、速度等维度评分（总分5-25分）

2.2 多模态特征提取

构建33维特征向量（表1）：

声学特征（18维）：基频(F0)、抖动(jitter)、信噪比(HNR)、语句时长、词错误率等（通过Parselmouth和Vosk API提取）
运动学特征（15维）：唇颌运动累积路径、口部面积极值、左右嘴角运动相关性等（基于68个面部标志点，通过SFD和FAN算法计算）

所有运动学特征经眼间距标准化：\[ f_{\text{norm}} = \frac{f}{\text{intercanthal distance}} \]

2.3 回归模型

采用留一被试交叉验证训练三类模型：

SVR：优化核函数（线性/RBF/sigmoid）及超参数 \( C \in [10^{-4},10^{4}] \), \(\varepsilon \in [0.01,1] \)
MLP：搜索最佳隐藏层结构（10-200节点）及激活函数
XGB：调整树深度(3-8)、学习率(0.001-0.3)等

3. 关键结果

3.1 模型性能对比

多模态SVR显著优于单模态模型（表1）：

模态	模型	全局RMSE	ALS组RMSE	健康组RMSE
音频	SVR	1.08	1.41	0.80
	XGB	0.99	1.23	0.77
	视频	XGB	1.30	1.73	0.95
音频-视频		SVR	0.93	1.29	0.62

注：多模态SVR对健康组预测更精确（RMSE=0.62），ALS组因临床异质性误差较高（RMSE=1.29）

3.2 误差分布分析

多模态SVR预测结果（图2）显示：

对轻中度障碍（评分<8.5）预测准确（近对角线分布）
对重度障碍（评分≥8.5）存在保守性高估（红点位于对角线上方）
局限性：仅3名重度ALS患者导致该区间训练不足

4. 讨论与展望

多模态方法较单模态优势显著：

声学特征捕捉发声稳定性（如声带功能障碍导致的jitter升高）
运动学特征反映肌肉强度/协调性退化（如唇颌运动速度降低）
二者互补提升预测鲁棒性（较纯音频模型RMSE降低6%）

未来方向：扩大样本量（尤其重度患者）、增加语音任务多样性、探索纵向监测模型。该方法有望成为临床标准化评估的补充工具，支持ALS早期干预。