以高维数据的分析决策为研究目标,将深度网络结构与强化学习算法相结合,以大规模决策任务为 应用平台,提出一系列面向高维数据的新型深度网络结构以及基于深度表示的强化学习方法。重点研究不同深度网络结构和不同强化学习算法之间的关系,优化传统深度强化学习方法的性能,提出深度网络结构参数的快速学习方法。优 化的侧重点包括:算法收敛的 速度和稳定性、模型的训练周 期、解决战略性挑战任务时的 表现、算法应用场景的扩展、 模型自我学习、记忆、规划能 力的挖掘等。通过以上研究进 一步提高深度强化学习智能体 解决大规模空间下决策任务的 能力,并拓宽智能体在现实场 景中的应用范围。