主页 › 范文 › 计算机 › 本文

面向分层强化学习智能体的多分辨率技能发现

摘要

文章提出多分辨率技能发现（MRSD）框架，解决现有分层强化学习方法仅支持单分辨率技能的局限。该框架通过并行训练多个条件变分自编码器（CVAE），在DeepMind Control Suite任务中实现：1）学习不同时间尺度的技能编码器（8/16/32/64步长）；2）动态技能交织机制，通过管理器策略头自适应选择技能；3）探索性奖励驱动无监督技能发现。实验表明MRSD在收敛速度和最终性能上均超越Director等基线方法，消融研究验证了技能交织机制的关键作用。

1. 引言

分层强化学习（HRL）依赖抽象技能解决长时程任务，但现有技能发现方法局限于单任务单技能。与此相反，人类可同时运用精细和粗粒度运动技能（如跑步时交替使用腿部粗动作和足部微调）。文章受此启发提出多分辨率技能发现（MRSD）框架，核心创新在于：

并行学习多时间尺度的技能编码器（$l_i \in \{8,16,32,64\}$步长）
管理器通过$N+1$策略头动态选择技能（式3-4）
探索性奖励$R^{\text{Expl}}_t$驱动无监督技能发现（式5）

2. 多分辨率技能框架

2.1 技能表示与训练

将技能建模为抽象状态转移：给定当前状态$s_t$，通过条件变分自编码器（CVAE）预测$l$步可达状态$s_{t+l}$。目标函数为：

\[ \mathcal{L}(\phi)=\|s_{t+l}-\text{Dec}_{\phi}(s_{t},z)\|^{2}+\beta\text{KL}[\text{Enc}_{\phi}(z|s_{t},s_{t+l})\parallel p(z)] \]

创新性地共享编码器/解码器中间层（图3a），仅保留分辨率特定的输入/输出层，显著降低模型复杂度。

2.2 动态技能交织

管理器策略包含$N$个技能头$\pi_{M_t}$和1个选择头$\pi_{M_C}$（图3b）：

\[ \begin{align*} s_g^{i,t} &= \text{Dec}_{\phi}^{i}(z_{t,i},s_t) \quad z_{t,i}\sim\pi_{M_t}(z|s_t) \\ s_g^{t} &= \sum_{i=0}^{N-1} c_{t,i} \cdot s_g^{i,t} \quad c_t\sim\pi_{M_C}(c|s_t) \end{align*} \]

选择头通过门控机制动态融合不同分辨率子目标，实现状态自适应技能组合。

2.3 策略优化机制

采用双重奖励优化：

任务奖励：优化外部任务目标
探索奖励：最小化CVAE重建误差（式5），鼓励未充分学习的状态转移： \[ R^{\text{Expl}}_{t}=\min_{i}\left\|s_{t}-\text{Dec}^{i}_{\phi}(s_{0},z_{t,i})\right\|^{2} \]

策略梯度更新采用带熵正则化的REINFORCE算法（式8-10），通过$\lambda$-returns降低方差。

3. 实验结果

3.1 基准测试

在DeepMind Control Suite上对比Director和DreamerV2（图4）：

MRSD在walker_run任务中最终得分提升37%
在稀疏奖励的Egocentric Ant Maze任务中，成功率较Director提高24%（图6）
管理器策略演化显示：早期偏好$\infty$长度技能，后期转向时间约束技能（图5）

3.2 消融研究

关键发现（图7）：

动态交织机制相比固定技能性能提升19-42%
单一技能无法适应所有任务（如64步技能在walker_run最优但cheetah_run最差）
无监督探索可自主发现后空翻、倒立等复杂行为（图10）

4. 讨论与影响

文章揭示技能交织机制是实现高效HRL的核心：1）管理器通过选择头实现技能组合自动化；2）多分辨率编码降低状态空间复杂度。局限性包括：1）技能头数量增加会稀释学习信号；2）探索奖励在动态任务（cheetah_run）中表现不稳定（图8）。未来可扩展至混合学习/确定性技能架构，为机器人控制提供新范式。