文章提出多分辨率技能发现(MRSD)框架,解决现有分层强化学习方法仅支持单分辨率技能的局限。该框架通过并行训练多个条件变分自编码器(CVAE),在DeepMind Control Suite任务中实现:1)学习不同时间尺度的技能编码器(8/16/32/64步长);2)动态技能交织机制,通过管理器策略头自适应选择技能;3)探索性奖励驱动无监督技能发现。实验表明MRSD在收敛速度和最终性能上均超越Director等基线方法,消融研究验证了技能交织机制的关键作用。
分层强化学习(HRL)依赖抽象技能解决长时程任务,但现有技能发现方法局限于单任务单技能。与此相反,人类可同时运用精细和粗粒度运动技能(如跑步时交替使用腿部粗动作和足部微调)。文章受此启发提出多分辨率技能发现(MRSD)框架,核心创新在于:
将技能建模为抽象状态转移:给定当前状态$s_t$,通过条件变分自编码器(CVAE)预测$l$步可达状态$s_{t+l}$。目标函数为:
\[ \mathcal{L}(\phi)=\|s_{t+l}-\text{Dec}_{\phi}(s_{t},z)\|^{2}+\beta\text{KL}[\text{Enc}_{\phi}(z|s_{t},s_{t+l})\parallel p(z)] \]
创新性地共享编码器/解码器中间层(图3a),仅保留分辨率特定的输入/输出层,显著降低模型复杂度。
管理器策略包含$N$个技能头$\pi_{M_t}$和1个选择头$\pi_{M_C}$(图3b):
\[ \begin{align*} s_g^{i,t} &= \text{Dec}_{\phi}^{i}(z_{t,i},s_t) \quad z_{t,i}\sim\pi_{M_t}(z|s_t) \\ s_g^{t} &= \sum_{i=0}^{N-1} c_{t,i} \cdot s_g^{i,t} \quad c_t\sim\pi_{M_C}(c|s_t) \end{align*} \]
选择头通过门控机制动态融合不同分辨率子目标,实现状态自适应技能组合。
采用双重奖励优化:
策略梯度更新采用带熵正则化的REINFORCE算法(式8-10),通过$\lambda$-returns降低方差。
在DeepMind Control Suite上对比Director和DreamerV2(图4):
关键发现(图7):
文章揭示技能交织机制是实现高效HRL的核心:1)管理器通过选择头实现技能组合自动化;2)多分辨率编码降低状态空间复杂度。局限性包括:1)技能头数量增加会稀释学习信号;2)探索奖励在动态任务(cheetah_run)中表现不稳定(图8)。未来可扩展至混合学习/确定性技能架构,为机器人控制提供新范式。