公共管理

PPO-ACT：空间公共物品博弈中的对抗课程迁移近端策略优化

公共物品博弈深度强化学习近端策略优化课程迁移多智能体系统文章提出PPO-ACT框架，将近端策略优化(PPO)与对抗课程迁移(ACT)相结合，用于研究空间公共物品博弈中的合作演化机制。该框架采用两阶段训练范式：第一阶段在高奖励条件下建立合作基础；第二阶段将知识迁移至低奖励场景。实验表明，PPO-ACT在临界增强因子区域显著优于标准PPO、Q学习和Fermi更新规则，能更早触发合作相变并维持稳定合作均衡。特别是在全背叛者初始条件下，该框架展现出强鲁棒性，验证了策略梯度方法通过价值函数传播实现时空收益协调的独特优势。

VAcSim：基于生成智能体的疫苗犹豫政策模拟框架

生成智能体疫苗犹豫公共政策社会模拟大语言模型文章提出VAcSim框架，利用100个大语言模型驱动的生成智能体模拟公共卫生政策对疫苗犹豫的影响。该框架通过三阶段流程实现：1) 基于人口普查数据实例化具有人口统计特征的智能体；2) 构建社交网络并建模疫苗态度随社会动态的演变；3) 评估不同干预政策效果。创新性地引入态度调制和模拟预热技术增强现实对齐性。实验表明Llama-3.1和Qwen-2.5等模型能有效区分政策强度差异，与专家排名的肯德尔相关性达0.733。研究揭示了生成智能体在政策模拟中的潜力与挑战，为公共卫生决策提供新范式。

贷款随机净现值模型

金融风险贷款评估马尔可夫链文章提出了一种评估贷款或抵押贷款盈利能力的模型，重点关注随机净现值（RNPV）作为关键性能指标。该模型同时考虑了借款人行为和信用市场动态变化对违约和提前还款风险的影响。通过马尔可夫链描述信用市场状态的随机演变，文章详细分析了单个贷款和贷款组合的RNPV均值和方差。数值应用展示了模型的实际效果，并通过敏感性分析探讨了评估率和投资组合规模对结果的影响。

最优分红与再保险策略研究

保险数学最优控制扩散模型文章研究了保险公司在两条业务线协同运营下的最优分红、再保险和资本注入策略问题。通过建立扩散风险模型，文章完整求解了该优化问题，得到了闭式解的价值函数和最优策略。研究表明，最优分红策略具有阈值特性，业务线的重要性决定了分红阈值的差异。再保险策略与总储备水平呈负相关，而资本注入仅用于防止业务线破产。数值算例展示了模型参数对最优策略的影响，为保险公司风险管理提供了理论依据。