文章介绍了MineAgent,一个模块化框架,旨在解决遥感矿物勘探中多模态大语言模型的领域知识缺失和多图像推理挑战。该框架通过分层判断模块提取空间光谱特征,并利用决策模块整合分析结果。同时,文章提出MineBench基准,标准化了基于地质和超光谱数据的矿物勘探任务评估。实验验证了MineAgent的有效性,显著提升模型性能,为领域专用推理提供了新范式。
矿物勘探对识别经济可行矿床至关重要,但传统方法依赖专家知识且效率低下。遥感成像技术虽能高效获取地质数据,却面临领域知识集成和多图像推理的挑战。多模态大语言模型(MLLMs)因零样本能力受到关注,但在处理跨图像空间关系时表现受限。
MineAgent通过模块化设计解决多图像推理问题,核心包含两类组件:
判断模块专注于提取特定特征(如地质结构或光谱签名),其输入可包含单类别图像或跨模块输出。输出采用半结构化协议:
\[ c_i = \{s_i, a_i, e_i\} \]
其中 \(s_i\) 为置信评分,\(a_i\) 标识目标区域,\(e_i\) 提供分析依据。该设计支持层次化特征整合,规避长上下文干扰。
决策模块聚合判断模块输出,执行高层推理(如矿床存在性预测)。其计算过程为:
\[ o^{\text{(dm)}} = \sum \mathbf{w}_i s_i \]
权重 \(\mathbf{w}_i\) 通过贝叶斯优化动态调整,确保多准则平衡。
MineBench基于澳大利亚地球科学数据(GSWA)构建,包含地质图像 \(\mathcal{I}^{(g)}\) 和超光谱图像 \(\mathcal{I}^{(h)}\)。为降低复杂度,原始数据经领域知识驱动的线性组合预处理:
\[ \mathcal{I}_{a}^{\text{(s,h)}} = \text{norm}_{[1,3]}(\mathcal{I}_{a}^{\text{(h,ox)}} + 2\mathcal{I}_{a}^{\text{(h,oh)}} + 4\mathcal{I}_{a}^{\text{(h,op)}}) \]
生成矿床签名图像 \(\mathcal{I}^{(s)}\),显著提升模型可解释性。
在 MineBench 上评估显示:
MineAgent 通过模块化推理有效解决了矿物勘探中的多图像挑战,MineBench 为领域评估提供标准化基础。当前框架仅支持特定矿床类型,未来可扩展知识库集成以增强泛化能力。