多智能体系统场景下的分层内在奖励机制

本文主要针对部分可观测、奖励稀疏的多智能体系统场景,解决多智能体强化学习算法收敛困难,智能体策略水平低下(lazy agent)的问题:设计了一种分层的内在奖励机制(HIRM),核心在于基于分层机制实现智能体内在奖励的平衡

针对部分可观测、奖励稀疏的多智能体系统场景,解决多智能体强化学习算法收敛困难,智能体策略水平低下(lazy agent)的问题:设计了一种分层的内在奖励机制(HIRM),核心在于基于分层机制实现智能体内在奖励的平衡。具体地,顶层奖励平衡器负责平衡智能体的不同内在奖励,输出智能体的奖励权重数值P;底层动作控制器负责智能体对象的基础动作的策略训练与执行,输出离散的移动动作:直行、左转以及右转等同时将HIRM应用于多 AGV调度场景,提出了分布式多智能体调度算法HIRM-BiCNet,解决传统集中式调度的局限性问题,显著地提高了调度成功率。

HIRM-BiCNet算法是基于Python3.6环境下的pytorchgym等依赖库开发。算法输入为智能体数量与场景大小,输出为有协作性的智能体调度动作。该算法支持在同构智能体设计下的多车配送场景的训练与测试,目前正在进行异构智能体设计的场景拓展。在代码的实现过程中,参考了BiCNetGym等第三方开源代码。


算法名称

HIRM-BiCNet

算法接口

python ma_main.py --algo --mode --model_episode

输入

algo(BiCNet)mode(train/eval)

输出

各个智能体的决策动作

依赖库

Python 3.6+、pytorch、numpy、gym

参考资源

BiCNet

Gitlab链接:HIRM · GitLab (crowdhmt.com)

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
LH
LH

9 篇文章

作家榜 »

  1. 尹懋龙 10 文章
  2. LH 9 文章
  3. mingze 8 文章
  4. admin 6 文章
  5. hcshen 5 文章
  6. Marco Legend 4 文章
  7. 旺仔牛奶opo 3 文章
  8. Hao98 2 文章