主页 › 范文 › 电子科技 › 本文

LLMDetect: 大语言模型上下文学习检测青少年自杀风险

摘要

文章提出基于大语言模型（LLM）的上下文学习方法，通过语音文本检测青少年自杀风险。针对SpeechWellness挑战赛中语音匿名化限制，利用DSPy框架构建提示模板，在Gemma2-9B模型上实现4样本上下文学习。该方法在180+提交中获第三名（准确率0.68），消融实验表明增加提示示例显著提升性能（p=0.003），且模型偏好高风险个体检测（假阴性率仅0.32）。研究证实LLM在心理健康评估中的有效性。

1. 引言

青少年自杀风险早期检测面临临床评估可扩展性瓶颈。SpeechWellness挑战赛提供600名中国青少年语音数据（50%高风险），但语音匿名化严重削弱声学特征有效性（如Whisper-L模型准确率仅0.54）。文章转向语音文本分析，利用大语言模型（LLM）的上下文学习能力，突破传统声学方法限制。该方法在仅使用自发语音文本的条件下，实现挑战赛第三名排名。

2. 方法设计

2.1 数据处理与基线

使用Whisper转写两类自发语音任务：情绪困扰经历描述与负面表情图片阐述。基线对比包括：

声学方法：eGeMAPS特征+逻辑回归（准确率0.51）
多模态基线：wav2vec 2.0+BERT（准确率0.61）

2.2 LLM上下文学习框架

基于DSPy构建程序化提示工程（图2）：

模型选择：Gemma2-9B与Qwen2.5-7B指令微调版
提示策略：零样本/少样本（k=1,4,8...128）及思维链（CoT）推理
分类机制：提供任务描述与随机示例，引导LLM输出二分类（高风险/低风险）

统计模型分析示例数量影响：

\[ \text{准确率} \sim \text{示例数} + \text{模型类型} + \text{模型规模} + \text{交互项} \]

3. 实验结果

3.1 主要结果

关键性能对比（表2）：

Gemma2-9B 4样本学习：开发集准确率0.67，测试集0.68（排名3/188）
Qwen2.5-7B 4样本：准确率0.59，显著低于Gemma2
思维链推理未提升性能（准确率0.66，排名第四）

混淆矩阵（图3）显示模型倾向高风险检测：假阴性率0.32（优于假阳性0.36），符合临床安全需求。

3.2 消融分析

统计模型揭示（表3）：

示例数量效应：增加示例显著提升准确率（$\beta=0.0023$, p=0.003）
模型差异：Qwen受益较小（交互项$\beta=-0.0017$, p=0.005）
规模影响：大模型性能更优（$\beta=0.0018$, p=0.003），但示例增益递减

4. 结论

文章证实LLM上下文学习在语音匿名化场景的有效性，Gemma2-9B仅凭文本特征实现0.68准确率。统计模型为示例数量优化提供量化依据，未来将结合思维链路径解析语言模式，推动计算工具临床转化。