SELFI:社交导航和自主自我提升的强化学习
研究人员展示了现实世界中的强化学习微调如何让移动机器人适应人类行为、障碍物和其他导航挑战。
抽象的。
我们提出了一种在线强化学习方法 SELFI 来微调基于模型的学习训练的控制策略。 在 SELFI 中,我们结合了数据高效的基于模型的学习和灵活的无模型学习,以减轻它们的局限性。 我们创建了一个组合目标:从无模型强化中学习到的 Q 值和基于模型的学习的目标。 我们通过在在线学习过程中最大化这一组合目标,以稳定的方式提高预训练策略的性能。 我们的方法有三个主要要点。
来源和详细信息:
https://sites.google.com/view/selfi-rl/