主页范文计算机本文

基于图扩散网络的智能体行为学习

摘要

文章提出图扩散网络(GDN)框架,通过结合图神经网络与扩散模型,实现了对任意基于智能体的模型(ABM)的可微分替代。该方法直接从ABM生成数据中学习个体智能体的随机行为,保留ABM的分散式动态特性。在Schelling隔离模型和捕食者-猎物生态系统上的实验表明,GDN能精确复现个体层面的状态转移分布,并准确预测训练范围之外的系统级涌现动态。

1. 引言

基于智能体的模型(ABM)是研究复杂系统涌现特性的重要工具,但其规则通常不可微分,阻碍了基于梯度的优化方法与现实数据的整合。文章提出图扩散网络(GDN),首次实现同时模拟个体行为随机性图结构交互的可微分ABM替代框架。该框架通过扩散模型捕捉行为随机性,图神经网络建模智能体交互,在保留ABM自底向上动态特性的同时,支持梯度反向传播,为ABM的参数校准与状态估计提供新范式。

2. 图扩散网络架构

2.1 双模块协同机制

GDN由核心组件构成:

  • 消息传递GNN: 通过置换不变算子聚合邻居状态,生成交互嵌入 $\mathbf{g}_t^{(i)} = f_\omega(\mathbf{Z}_t^{(i)}, \bigoplus_{j\in N_t^{(i)}} (\mathbf{Z}_t^{(i)}, \mathbf{Z}_t^{(j)}))$
  • 条件扩散模型: 以$\mathbf{g}_t^{(i)}$和当前状态为条件,通过去噪过程生成下一状态分布:$\tilde{\mathbf{Z}}_{t+1}^{(i)}(\tau-1) = \frac{1}{\sqrt{\alpha_\tau}}(\tilde{\mathbf{Z}}_{t+1}^{(i)}(\tau) - \frac{1-\alpha_\tau}{\sqrt{1-\bar{\alpha}_\tau}} \epsilon_\phi) + \sigma_\tau \mathbf{z}$

两模块通过条件向量$\mathbf{c}_t^{(i)}$连接:

\[ \mathbf{c}_t^{(i)} = \text{MLP}(\mathbf{Z}_t^{(i)}) + \text{MLP}(\mathbf{g}_t^{(i)}) + \text{MLP}(\tau_{emb}) \]

2.2 分支数据生成

为捕捉ABM随机性,提出分支数据生成法

  1. 从初始状态生成主时间线$\{\mathbf{Z}_t[0]\}_{t=0}^{T-1}$
  2. 在每步$t$生成$R$条随机分支$\{\mathbf{Z}_{t+1}[r]\}_{r=1}^R$
  3. 主分支提供条件元组,分支提供目标状态样本

该方法避免历史数据指数增长,同时充分覆盖状态转移空间。

2.3 训练优化策略

采用两阶段优化:

  • 扩散损失: $L(\phi,\omega) = \mathbb{E} \left[ \| \epsilon - \epsilon_{\phi}(\tilde{\mathbf{Z}}_{t+1}^{(i)}(\tau), \mathbf{c}_t^{(i)}) \|^2 \right]$
  • 异步梯度更新: 扩散模型与GNN分别采用Adam优化器(学习率$10^{-5}$与$2\times10^{-5}$)
  • 条件融合机制: 在隐藏层引入LayerNorm与残差连接增强稳定性

3. 实验验证

3.1 测试模型与设置

在两类经典ABM上验证:

模型 状态变量 交互图 随机规则
Schelling隔离模型 位置$(x,y)$/颜色 Moore邻域(8邻居) 容忍度$\xi$触发随机迁移
捕食者-猎物模型 位置/种类/生命阶段 Von Neumann邻域(4邻居) 转移矩阵$\Psi$控制行为概率

评估指标:

  • 微观保真度: 推土机距离(EMD)衡量个体状态分布匹配度
  • 宏观保真度: 对称平均绝对百分比误差(sMAPE)评估系统统计量预测

3.2 关键结果

微观层面:

  • Schelling模型在$\xi_2=0.75$时EMD降低42%(0.35→0.20)
  • 捕食者-猎物模型随机转移平均EMD仅0.08(消融模型0.21)

宏观层面:

  • Schelling集群形成动态sMAPE<0.2
  • 捕食者-猎物振荡相位误差≤8%(图3)
GDN与消融模型对比

图:GDN成功复现捕食者-猎物振荡(左),消融模型失效(右)

3.3 空间动态复现

GDN精准捕捉两类空间涌现现象:

  1. 隔离集群: 在$\xi_1=0.625$时复现小规模聚集(图5)
  2. 捕食波: 复现捕食者集群移动形成的空间波纹(图9-12)

4. 应用前景与局限

创新价值:

  • 首次实现个体级随机行为的可微分替代
  • 为ABM参数校准提供梯度通路
  • 支持复杂空间交互建模(如捕食者集群动态)

当前局限:

  1. 依赖已知交互图结构(未来需推断隐式交互)
  2. 对单步内多轮决策建模能力有限
  3. 高维连续状态空间扩展性待验证

该框架为经济学、流行病学等领域的ABM实证研究开辟了新路径。

相关论文