文章提出了一种基于安全强化学习(SafeRL)的无人机河流跟踪方法,通过视觉语义模型和动态优势估计技术解决复杂河流环境中的导航问题。该方法包含三个核心创新:边际增益优势估计(MGAE)用于处理非马尔可夫奖励结构,语义动态模型(SDM)实现高效的环境状态预测,以及约束演员动态估计器(CADE)架构整合安全约束与策略优化。实验表明,该方法在模拟河流环境中显著优于传统导航方法,尤其在安全性和任务完成率方面表现突出。
无人机在复杂河流环境中的自主导航面临GPS信号不可靠、动态障碍物多等挑战。传统方法依赖手动调参或简化环境模型,难以适应真实场景的多样性。文章提出了一种结合视觉语义分割与安全强化学习(SafeRL)的框架,通过端到端学习实现无人机在河流环境中的安全跟踪。
针对河流跟踪任务中奖励的非马尔可夫特性,文章设计了MGAE方法。与传统基于状态值函数的优势估计不同,MGAE通过滑动窗口计算历史轨迹的边际增益,更准确地反映长期探索收益。实验证明,MGAE在稀疏奖励环境下显著提升了策略收敛速度。
SDM利用同形变换预测未来视觉观测,将128×128像素的语义水掩码压缩为16×16的块状表示。相比潜在动力学模型,SDM显式保留几何约束,在短期预测中IoU指标提升32%,同时计算效率提高3倍。
CADE架构整合了MGAE、SDM和成本估计器,通过拉格朗日松弛法平衡任务奖励与安全约束。测试表明,在中等难度河流场景中,CADE的任务完成率比基线高62%,且安全违规减少45%。
在CliffCircular和Safe Riverine Environment两个模拟环境中,文章对比了不同方法的性能。MGAE在10万步训练后获得19.7的平均分,远超GAE(12.1)和TD(9.3)。安全层机制在部署阶段进一步将碰撞率降低至0.33次/千步。
该方法已通过真实河流视频的开环测试验证,未来可扩展至多无人机协同作业。研究还探讨了SDM在动态障碍物场景中的改进方向,建议结合光流检测提升鲁棒性。