主页范文电子科技本文

LLMDetect: 大语言模型上下文学习检测青少年自杀风险

摘要

文章提出基于大语言模型(LLM)的上下文学习方法,通过语音文本检测青少年自杀风险。针对SpeechWellness挑战赛中语音匿名化限制,利用DSPy框架构建提示模板,在Gemma2-9B模型上实现4样本上下文学习。该方法在180+提交中获第三名(准确率0.68),消融实验表明增加提示示例显著提升性能(p=0.003),且模型偏好高风险个体检测(假阴性率仅0.32)。研究证实LLM在心理健康评估中的有效性。

1. 引言

青少年自杀风险早期检测面临临床评估可扩展性瓶颈。SpeechWellness挑战赛提供600名中国青少年语音数据(50%高风险),但语音匿名化严重削弱声学特征有效性(如Whisper-L模型准确率仅0.54)。文章转向语音文本分析,利用大语言模型(LLM)的上下文学习能力,突破传统声学方法限制。该方法在仅使用自发语音文本的条件下,实现挑战赛第三名排名。

2. 方法设计

2.1 数据处理与基线

使用Whisper转写两类自发语音任务:情绪困扰经历描述与负面表情图片阐述。基线对比包括:

  • 声学方法:eGeMAPS特征+逻辑回归(准确率0.51)
  • 多模态基线:wav2vec 2.0+BERT(准确率0.61)

2.2 LLM上下文学习框架

基于DSPy构建程序化提示工程(图2):

  • 模型选择:Gemma2-9B与Qwen2.5-7B指令微调版
  • 提示策略:零样本/少样本(k=1,4,8...128)及思维链(CoT)推理
  • 分类机制:提供任务描述与随机示例,引导LLM输出二分类(高风险/低风险)

统计模型分析示例数量影响:

\[ \text{准确率} \sim \text{示例数} + \text{模型类型} + \text{模型规模} + \text{交互项} \]

3. 实验结果

3.1 主要结果

关键性能对比(表2):

  • Gemma2-9B 4样本学习:开发集准确率0.67,测试集0.68(排名3/188)
  • Qwen2.5-7B 4样本:准确率0.59,显著低于Gemma2
  • 思维链推理未提升性能(准确率0.66,排名第四)

混淆矩阵(图3)显示模型倾向高风险检测:假阴性率0.32(优于假阳性0.36),符合临床安全需求。

3.2 消融分析

统计模型揭示(表3):

  • 示例数量效应:增加示例显著提升准确率($\beta=0.0023$, p=0.003)
  • 模型差异:Qwen受益较小(交互项$\beta=-0.0017$, p=0.005)
  • 规模影响:大模型性能更优($\beta=0.0018$, p=0.003),但示例增益递减

4. 结论

文章证实LLM上下文学习在语音匿名化场景的有效性,Gemma2-9B仅凭文本特征实现0.68准确率。统计模型为示例数量优化提供量化依据,未来将结合思维链路径解析语言模式,推动计算工具临床转化。

相关论文