主页 › 范文 › 计算机 › 本文

基于图扩散网络的智能体行为学习

摘要

文章提出图扩散网络（GDN）框架，通过结合图神经网络与扩散模型，实现了对任意基于智能体的模型（ABM）的可微分替代。该方法直接从ABM生成数据中学习个体智能体的随机行为，保留ABM的分散式动态特性。在Schelling隔离模型和捕食者-猎物生态系统上的实验表明，GDN能精确复现个体层面的状态转移分布，并准确预测训练范围之外的系统级涌现动态。

1. 引言

基于智能体的模型（ABM）是研究复杂系统涌现特性的重要工具，但其规则通常不可微分，阻碍了基于梯度的优化方法与现实数据的整合。文章提出图扩散网络（GDN），首次实现同时模拟个体行为随机性与图结构交互的可微分ABM替代框架。该框架通过扩散模型捕捉行为随机性，图神经网络建模智能体交互，在保留ABM自底向上动态特性的同时，支持梯度反向传播，为ABM的参数校准与状态估计提供新范式。

2. 图扩散网络架构

2.1 双模块协同机制

GDN由核心组件构成：

消息传递GNN： 通过置换不变算子聚合邻居状态，生成交互嵌入 $\mathbf{g}_t^{(i)} = f_\omega(\mathbf{Z}_t^{(i)}, \bigoplus_{j\in N_t^{(i)}} (\mathbf{Z}_t^{(i)}, \mathbf{Z}_t^{(j)}))$
条件扩散模型： 以$\mathbf{g}_t^{(i)}$和当前状态为条件，通过去噪过程生成下一状态分布：$\tilde{\mathbf{Z}}_{t+1}^{(i)}(\tau-1) = \frac{1}{\sqrt{\alpha_\tau}}(\tilde{\mathbf{Z}}_{t+1}^{(i)}(\tau) - \frac{1-\alpha_\tau}{\sqrt{1-\bar{\alpha}_\tau}} \epsilon_\phi) + \sigma_\tau \mathbf{z}$

两模块通过条件向量$\mathbf{c}_t^{(i)}$连接：

\[ \mathbf{c}_t^{(i)} = \text{MLP}(\mathbf{Z}_t^{(i)}) + \text{MLP}(\mathbf{g}_t^{(i)}) + \text{MLP}(\tau_{emb}) \]

2.2 分支数据生成

为捕捉ABM随机性，提出分支数据生成法：

从初始状态生成主时间线$\{\mathbf{Z}_t[0]\}_{t=0}^{T-1}$
在每步$t$生成$R$条随机分支$\{\mathbf{Z}_{t+1}[r]\}_{r=1}^R$
主分支提供条件元组，分支提供目标状态样本

该方法避免历史数据指数增长，同时充分覆盖状态转移空间。

2.3 训练优化策略

采用两阶段优化：

扩散损失： $L(\phi,\omega) = \mathbb{E} \left[ \| \epsilon - \epsilon_{\phi}(\tilde{\mathbf{Z}}_{t+1}^{(i)}(\tau), \mathbf{c}_t^{(i)}) \|^2 \right]$
异步梯度更新： 扩散模型与GNN分别采用Adam优化器（学习率$10^{-5}$与$2\times10^{-5}$)
条件融合机制： 在隐藏层引入LayerNorm与残差连接增强稳定性

3. 实验验证

3.1 测试模型与设置

在两类经典ABM上验证：

模型	状态变量	交互图	随机规则
Schelling隔离模型	位置$(x,y)$/颜色	Moore邻域（8邻居）	容忍度$\xi$触发随机迁移
捕食者-猎物模型	位置/种类/生命阶段	Von Neumann邻域（4邻居）	转移矩阵$\Psi$控制行为概率

评估指标：

微观保真度： 推土机距离（EMD）衡量个体状态分布匹配度
宏观保真度： 对称平均绝对百分比误差（sMAPE）评估系统统计量预测

3.2 关键结果

微观层面：

Schelling模型在$\xi_2=0.75$时EMD降低42%（0.35→0.20）
捕食者-猎物模型随机转移平均EMD仅0.08（消融模型0.21）

宏观层面：

Schelling集群形成动态sMAPE＜0.2
捕食者-猎物振荡相位误差≤8%（图3）

图：GDN成功复现捕食者-猎物振荡（左），消融模型失效（右）

3.3 空间动态复现

GDN精准捕捉两类空间涌现现象：

隔离集群： 在$\xi_1=0.625$时复现小规模聚集（图5）
捕食波： 复现捕食者集群移动形成的空间波纹（图9-12）

4. 应用前景与局限

创新价值：

首次实现个体级随机行为的可微分替代
为ABM参数校准提供梯度通路
支持复杂空间交互建模（如捕食者集群动态）

当前局限：

依赖已知交互图结构（未来需推断隐式交互）
对单步内多轮决策建模能力有限
高维连续状态空间扩展性待验证

该框架为经济学、流行病学等领域的ABM实证研究开辟了新路径。