多智能体系统场景下的分层内在奖励机制

本文主要针对部分可观测、奖励稀疏的多智能体系统场景，解决多智能体强化学习算法收敛困难，智能体策略水平低下（lazy agent）的问题：设计了一种分层的内在奖励机制（HIRM），核心在于基于分层机制实现智能体内在奖励的平衡

针对部分可观测、奖励稀疏的多智能体系统场景，解决多智能体强化学习算法收敛困难，智能体策略水平低下（lazy agent）的问题：设计了一种分层的内在奖励机制（HIRM），核心在于基于分层机制实现智能体内在奖励的平衡。具体地，顶层奖励平衡器负责平衡智能体的不同内在奖励，输出智能体的奖励权重数值P；底层动作控制器负责智能体对象的基础动作的策略训练与执行，输出离散的移动动作：直行、左转以及右转等。同时将HIRM应用于多 AGV调度场景，提出了分布式多智能体调度算法HIRM-BiCNet，解决传统集中式调度的局限性问题，显著地提高了调度成功率。

HIRM-BiCNet算法是基于Python3.6环境下的pytorch、gym等依赖库开发。算法输入为智能体数量与场景大小，输出为有协作性的智能体调度动作。该算法支持在同构智能体设计下的多车配送场景的训练与测试，目前正在进行异构智能体设计的场景拓展。在代码的实现过程中，参考了BiCNet、Gym等第三方开源代码。

算法名称	HIRM-BiCNet
算法接口	python ma_main.py --algo --mode --model_episode
输入	algo(BiCNet)，mode(train/eval)
输出	各个智能体的决策动作
依赖库	Python 3.6+、pytorch、numpy、gym
参考资源	BiCNet

Gitlab链接：HIRM · GitLab (crowdhmt.com)

发表于 2022-05-22 09:48
阅读 ( 2147 )
分类：群智协作增强机理

多智能体系统场景下的分层内在奖励机制

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »