主页范文计算机本文

面向分层强化学习智能体的多分辨率技能发现

摘要

文章提出多分辨率技能发现(MRSD)框架,解决现有分层强化学习方法仅支持单分辨率技能的局限。该框架通过并行训练多个条件变分自编码器(CVAE),在DeepMind Control Suite任务中实现:1)学习不同时间尺度的技能编码器(8/16/32/64步长);2)动态技能交织机制,通过管理器策略头自适应选择技能;3)探索性奖励驱动无监督技能发现。实验表明MRSD在收敛速度和最终性能上均超越Director等基线方法,消融研究验证了技能交织机制的关键作用。

1. 引言

分层强化学习(HRL)依赖抽象技能解决长时程任务,但现有技能发现方法局限于单任务单技能。与此相反,人类可同时运用精细和粗粒度运动技能(如跑步时交替使用腿部粗动作和足部微调)。文章受此启发提出多分辨率技能发现(MRSD)框架,核心创新在于:

  • 并行学习多时间尺度的技能编码器($l_i \in \{8,16,32,64\}$步长)
  • 管理器通过$N+1$策略头动态选择技能(式3-4)
  • 探索性奖励$R^{\text{Expl}}_t$驱动无监督技能发现(式5)

2. 多分辨率技能框架

2.1 技能表示与训练

将技能建模为抽象状态转移:给定当前状态$s_t$,通过条件变分自编码器(CVAE)预测$l$步可达状态$s_{t+l}$。目标函数为:

\[ \mathcal{L}(\phi)=\|s_{t+l}-\text{Dec}_{\phi}(s_{t},z)\|^{2}+\beta\text{KL}[\text{Enc}_{\phi}(z|s_{t},s_{t+l})\parallel p(z)] \]

创新性地共享编码器/解码器中间层(图3a),仅保留分辨率特定的输入/输出层,显著降低模型复杂度。

2.2 动态技能交织

管理器策略包含$N$个技能头$\pi_{M_t}$和1个选择头$\pi_{M_C}$(图3b):

\[ \begin{align*} s_g^{i,t} &= \text{Dec}_{\phi}^{i}(z_{t,i},s_t) \quad z_{t,i}\sim\pi_{M_t}(z|s_t) \\ s_g^{t} &= \sum_{i=0}^{N-1} c_{t,i} \cdot s_g^{i,t} \quad c_t\sim\pi_{M_C}(c|s_t) \end{align*} \]

选择头通过门控机制动态融合不同分辨率子目标,实现状态自适应技能组合。

2.3 策略优化机制

采用双重奖励优化:

  • 任务奖励:优化外部任务目标
  • 探索奖励:最小化CVAE重建误差(式5),鼓励未充分学习的状态转移: \[ R^{\text{Expl}}_{t}=\min_{i}\left\|s_{t}-\text{Dec}^{i}_{\phi}(s_{0},z_{t,i})\right\|^{2} \]

策略梯度更新采用带熵正则化的REINFORCE算法(式8-10),通过$\lambda$-returns降低方差。

3. 实验结果

3.1 基准测试

在DeepMind Control Suite上对比Director和DreamerV2(图4):

  • MRSD在walker_run任务中最终得分提升37%
  • 在稀疏奖励的Egocentric Ant Maze任务中,成功率较Director提高24%(图6)
  • 管理器策略演化显示:早期偏好$\infty$长度技能,后期转向时间约束技能(图5)

3.2 消融研究

关键发现(图7):

  • 动态交织机制相比固定技能性能提升19-42%
  • 单一技能无法适应所有任务(如64步技能在walker_run最优但cheetah_run最差)
  • 无监督探索可自主发现后空翻、倒立等复杂行为(图10)

4. 讨论与影响

文章揭示技能交织机制是实现高效HRL的核心:1)管理器通过选择头实现技能组合自动化;2)多分辨率编码降低状态空间复杂度。局限性包括:1)技能头数量增加会稀释学习信号;2)探索奖励在动态任务(cheetah_run)中表现不稳定(图8)。未来可扩展至混合学习/确定性技能架构,为机器人控制提供新范式。

相关论文