主页 › 范文 › 计算机 › 本文

MME-Reasoning：多模态大语言模型的逻辑推理基准

摘要

文章提出了MME-Reasoning基准，这是首个全面评估多模态大语言模型（MLLM）逻辑推理能力的测试框架。该基准系统覆盖归纳、演绎和溯因三种经典推理类型，包含1,188道经过严格筛选的跨模态问题。通过解耦感知能力与领域知识依赖，MME-Reasoning聚焦核心推理过程，引入多选题、自由问答和规则类（如数独）三种评估范式。实验表明当前最先进的MLLM（如Gemini-2.5-Pro-Thinking）整体准确率仅60.19%，在溯因推理任务上存在平均9.81分的性能鸿沟。研究进一步揭示了「思考模式」对推理链延长的正向效应，以及基于规则强化学习方法的局限性。基准代码与数据集已在HuggingFace开源。

1. 引言

逻辑推理作为人类智能的核心能力，是评估多模态大语言模型（MLLM）的关键维度。现有基准存在三大局限：推理类型覆盖不全（缺失40%溯因推理评估）、感知与推理任务混淆、过度依赖领域知识。这导致现有评估无法准确反映模型的真实推理能力。

2. MME-Reasoning基准架构

2.1 设计原则

基准构建遵循四维准则：
1) 完备性：涵盖皮尔士推理三分类体系
2) 去感知化：通过对抗样本过滤机制剔除依赖视觉识别的题目
3) 知识中立：限定问题所需知识在K12范畴
4) 评估多样性：融合规则类问题（如数独验证）的新型评估协议

2.2 数据构建

从四大来源收集4,000+候选问题：
• 学科题库：数学物理等学科推理题（占比31.48%）
• 逻辑谜题：包含国际象棋「一步杀」等溯因推理问题
• 程序生成：自动生成数桥（Hashi）等规则类题目
• 时空推理：基于ScanNet等三维场景的导航问题

3. 关键发现

3.1 推理类型差异

在溯因推理任务中，闭源模型平均准确率（54.2%）较开源模型（44.3%）存在显著差距。典型问题如电路故障诊断，需通过假设生成-验证的迭代过程，模型平均尝试次数达7.2次（人类专家仅3.1次）。

3.2 思考模式效应

启用思考模式的模型响应长度提升2.8倍，推理准确率提升12.4%。响应长度（L）与准确率（A）的关系符合：
$$ A = 58.7 \times \ln(L) - 207.4 \quad (R^2=0.83) $$

3.3 强化学习瓶颈

基于规则的强化学习（如R1-VL）在7B模型上出现性能衰退，推测源于多模态状态空间与文本推理的维度失配问题。这表明单纯移植LLM训练范式至MLLM存在局限性。

4. 技术贡献

文章开源包含：
1) 标注体系：包含推理类型、难度等级、能力维度的三级标签系统
2) 评估工具包：支持规则类问题的自动验证模块（如数独矩阵校验器）
3) 基线模型：包括Qwen2.5-VL等12个模型的基准测试结果