文章提出基于大语言模型(LLM)的上下文学习方法,通过语音文本检测青少年自杀风险。针对SpeechWellness挑战赛中语音匿名化限制,利用DSPy框架构建提示模板,在Gemma2-9B模型上实现4样本上下文学习。该方法在180+提交中获第三名(准确率0.68),消融实验表明增加提示示例显著提升性能(p=0.003),且模型偏好高风险个体检测(假阴性率仅0.32)。研究证实LLM在心理健康评估中的有效性。
青少年自杀风险早期检测面临临床评估可扩展性瓶颈。SpeechWellness挑战赛提供600名中国青少年语音数据(50%高风险),但语音匿名化严重削弱声学特征有效性(如Whisper-L模型准确率仅0.54)。文章转向语音文本分析,利用大语言模型(LLM)的上下文学习能力,突破传统声学方法限制。该方法在仅使用自发语音文本的条件下,实现挑战赛第三名排名。
使用Whisper转写两类自发语音任务:情绪困扰经历描述与负面表情图片阐述。基线对比包括:
基于DSPy构建程序化提示工程(图2):
统计模型分析示例数量影响:
\[ \text{准确率} \sim \text{示例数} + \text{模型类型} + \text{模型规模} + \text{交互项} \]
关键性能对比(表2):
混淆矩阵(图3)显示模型倾向高风险检测:假阴性率0.32(优于假阳性0.36),符合临床安全需求。
统计模型揭示(表3):
文章证实LLM上下文学习在语音匿名化场景的有效性,Gemma2-9B仅凭文本特征实现0.68准确率。统计模型为示例数量优化提供量化依据,未来将结合思维链路径解析语言模式,推动计算工具临床转化。