主页范文计算机本文

MME-Reasoning:多模态大语言模型的逻辑推理基准

摘要

文章提出了MME-Reasoning基准,这是首个全面评估多模态大语言模型(MLLM)逻辑推理能力的测试框架。该基准系统覆盖归纳、演绎和溯因三种经典推理类型,包含1,188道经过严格筛选的跨模态问题。通过解耦感知能力与领域知识依赖,MME-Reasoning聚焦核心推理过程,引入多选题、自由问答和规则类(如数独)三种评估范式。实验表明当前最先进的MLLM(如Gemini-2.5-Pro-Thinking)整体准确率仅60.19%,在溯因推理任务上存在平均9.81分的性能鸿沟。研究进一步揭示了「思考模式」对推理链延长的正向效应,以及基于规则强化学习方法的局限性。基准代码与数据集已在HuggingFace开源。

1. 引言

逻辑推理作为人类智能的核心能力,是评估多模态大语言模型(MLLM)的关键维度。现有基准存在三大局限:推理类型覆盖不全(缺失40%溯因推理评估)、感知与推理任务混淆、过度依赖领域知识。这导致现有评估无法准确反映模型的真实推理能力。

2. MME-Reasoning基准架构

2.1 设计原则

基准构建遵循四维准则
1) 完备性:涵盖皮尔士推理三分类体系
2) 去感知化:通过对抗样本过滤机制剔除依赖视觉识别的题目
3) 知识中立:限定问题所需知识在K12范畴
4) 评估多样性:融合规则类问题(如数独验证)的新型评估协议

2.2 数据构建

从四大来源收集4,000+候选问题:
学科题库:数学物理等学科推理题(占比31.48%)
逻辑谜题:包含国际象棋「一步杀」等溯因推理问题
程序生成:自动生成数桥(Hashi)等规则类题目
时空推理:基于ScanNet等三维场景的导航问题

3. 关键发现

3.1 推理类型差异

在溯因推理任务中,闭源模型平均准确率(54.2%)较开源模型(44.3%)存在显著差距。典型问题如电路故障诊断,需通过假设生成-验证的迭代过程,模型平均尝试次数达7.2次(人类专家仅3.1次)。

3.2 思考模式效应

启用思考模式的模型响应长度提升2.8倍,推理准确率提升12.4%。响应长度(L)与准确率(A)的关系符合:
$$ A = 58.7 \times \ln(L) - 207.4 \quad (R^2=0.83) $$

3.3 强化学习瓶颈

基于规则的强化学习(如R1-VL)在7B模型上出现性能衰退,推测源于多模态状态空间与文本推理的维度失配问题。这表明单纯移植LLM训练范式至MLLM存在局限性。

4. 技术贡献

文章开源包含:
1) 标注体系:包含推理类型、难度等级、能力维度的三级标签系统
2) 评估工具包:支持规则类问题的自动验证模块(如数独矩阵校验器)
3) 基线模型:包括Qwen2.5-VL等12个模型的基准测试结果

相关论文