文章提出基于多模态分析的ALS语音障碍客观评估方法。研究使用多伦多神经面部数据集(含11名ALS患者和11名健康对照),从句子重复任务中提取33个声学特征(基频、抖动、信噪比等)和运动学特征(唇颌运动速度、对称性等)。通过支持向量回归(SVR)、多层感知机(MLP)和极限梯度提升(XGB)模型预测临床言语障碍评分(5-25分)。结果表明:多模态SVR模型表现最佳(均方根误差RMSE=0.93),较单模态音频(RMSE=0.99)和视频(RMSE=1.30)模型误差降低24%。该方法为ALS延髓功能障碍提供低成本客观评估工具,支持家庭环境远程监测。
肌萎缩侧索硬化症(ALS)导致延髓功能障碍,传统临床评估依赖主观量表(如5分量表)。文章提出多模态机器学习方法,结合音频-视频分析实现客观评估(图1)。该方法可部署于智能手机,支持家庭环境远程监测,解决现有方法延迟诊断问题。
使用Toronto NeuroFace数据集:
构建33维特征向量(表1):
所有运动学特征经眼间距标准化:\[ f_{\text{norm}} = \frac{f}{\text{intercanthal distance}} \]
采用留一被试交叉验证训练三类模型:
多模态SVR显著优于单模态模型(表1):
| 模态 | 模型 | 全局RMSE | ALS组RMSE | 健康组RMSE |
|---|---|---|---|---|
| 音频 | SVR | 1.08 | 1.41 | 0.80 |
| XGB | 0.99 | 1.23 | 0.77 | |
| 视频 | XGB | 1.30 | 1.73 | 0.95 |
| 音频-视频 | SVR | 0.93 | 1.29 | 0.62 |
注:多模态SVR对健康组预测更精确(RMSE=0.62),ALS组因临床异质性误差较高(RMSE=1.29)
多模态SVR预测结果(图2)显示:
多模态方法较单模态优势显著:
未来方向:扩大样本量(尤其重度患者)、增加语音任务多样性、探索纵向监测模型。该方法有望成为临床标准化评估的补充工具,支持ALS早期干预。