本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间, 对全局状态信息的利用不充分, 从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题。本方法包括:分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据Q值,得到e‑greedy策略,进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息, 实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。


