基于深度强化学习的自主建图系统

近年来,随着人工智能技术的高速发展,移动机器人得到了广泛的应用,尤其是复杂的环境更需要移动机器人的辅助。当前自主性机器人在搜救、无人区、地下和行星探索、服务型机器人部署等领域有着很大的需求,但目前的移动机器人在建图和探索方面需要人为的干预,无法充分利用实际应用环境的信息或者过分依赖环境先验信息来进行地图探索,缺乏在位置环境下的自主导航能力,而且大部分机器人构建的地图只是一个简单的拓扑地图,其中只包含环境的基本信息,缺乏语义信息等丰富的环境信息,无法满足上述场景的实际需求。

针对上述已有研究中存在的问题,我们将其汇总为三个挑战:

  •  针对目前传统SLAM缺乏在未知环境下自主导航能力、无法高效构建环境地图的问题。需要研究能够高效自主建图的环境探索架构方案;
  •  针对目前已有的环境探索算法没有充分利用实际应用环境的信息或者过分依赖环境先验信息,环境探索效率未达到最优,且探索鲁棒性不高的问题。需要研究能够对未知环境高效探索的探索策略学习算法。
  •  针对目前已有的建图方式得到的环境地图只有环境的基本信息和简单的拓扑地图,对环境信息的了解不够充分的问题,需要研究能够建立包含环境中物体的语义信息的建图算法,使得移动机器人可以获得的足够的物体信息,以更好地指导机器人在未知场景中的导航。

本课题拟针对以上关键挑战作出相应研究,成果有望应用于自动驾驶、机器人等实际应用场景。

系统构成

 

整个系统将基于深度强化学习的自主建图探索算法,来构建一个无人自主建图系统,解决已有基于DRL导航建图存在缺乏在未知环境下自主导航能力、无法高效构建环境地图的问题。如图所示,机器人首先与环境进行交互,通过雷达、相机等传感器收集感知信息,将这些信息进行语义分割后构建语义拓扑地图,地图经过编码后作为状态表征输入到强化学习模块中进行决策,输出动作,即机器人的控制指令来控制机器人移动到新的未知区域进行新一轮的探索与建图。

对于拓扑地图的构建,计划建立一个包含环境中物体的语义信息以及位置大小信息的平面地图,使得移动机器人可以获得的足够的物体信息,能够更好地指导移动机器人的运动,语义拓扑地图构建与更新过程如下图所示。

成果展示

在此之前,我们已经在gazebo场景以及真实环境中实现了基于深度强化学习的局部避障模型,该模型将作为此自主建图系统中探索策略的一部分。整体算法框架如图 4所示。

图 4 基于强化学习的避障模型

其中算法输入为激光雷达数据和导航目标点与机器人的相对位姿,算法输出为控制机器人行走的线速度和角速度。

并且,我们验证了避障算法的有效性,在 Gazebo 仿真环境中对算法进行了验证。在实验中,我们按照场景的大小以及障碍物的数目构建了 4 个仿真场景,仿真场景如图 5所示。

图 5 gazebo避障场景

测试结果如表 1所示。

表 1 避障模型性能测试结果

场景名称

场景面积

SR

SPL

NDG

场景一

100㎡

96%

0.8905

0.0344

场景二

100㎡

100%

0.9605

0.0000

场景三

100㎡

96%

0.9122

0.0429

场景四

400㎡

65%

0.5885

0.3782

可以看出,在小范围场景中,该算法有极高的导航成功率(SR)和路径长度加权成功率(SPL),可以以此为基本模型,继续进行本课题的研究。