《强化学习周刊》第2期：多智能体强化学习（MARL）赋能“AI智能时代”

No.02

智源社区

强化学习组

学

习

研究

观点

资源

活动

关于周刊

随着强化学习研究的不断成熟，如何将其结合博弈论的研究基础，解决多智能体连续决策与优化问题成为了新的研究领域，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第2期《智源社区周刊：强化学习》，从论文推荐、研究动态、研究综述、热点讨论、学术会议等几个维度推荐最近一周内强化学习领域值得关注的信息。周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。（本期贡献者：任黎明常政）

论文推荐

多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）作为人工智能领域的研究热点之一，其主要研究智能体策略的同步学习和优化问题，在无人机群控制、自动驾驶、智能工业机器人等场景中具有很大的应用前景。本期推荐七篇多智能体强化学习相关论文，具体方向分别是多智能体系统协同、元认知强化学习、医疗药物预测、机器人控制、决策策略等。

标题：Reward-Reinforced Reinforcement Learning for Multi-agent Systems

//基于奖励增强强化学习的多智能体系统强化学习）了解详情

简介：本文提出了一种基于奖励增强GAN（RR-GAN）的多智能体系统通用框架，该框架有可能推广到任何多智能体系统。其使用生成器网络作为用户分布的隐式指示，以实现协作多智能体系统的全局目标最大化。

论文地址：https://arxiv.org/pdf/2103.12192.pdf

标题：Assured Learning-enabled Autonomy: A Metacognitive Reinforcement Learning Framework

//自主学习 : 一个元认知强化学习框架了解详情

简介：本文通过赋予RL算法元认知学习能力，提出了一个有保证的自主控制框架。其根据增益和自适应参考轨迹(超参数)给出了自适应奖励函数，该方法将学习满足规格的奖励函数与学习使奖励最大化的控制策略分开，以学习具有足够好性能的控制方案。

论文地址：https://arxiv.org/pdf/2103.12558.pdf

标题：Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement Learning for Decision-making Tasks

//基于元对抗逆强化学习学习适应性策略，以执行决策任务了解详情

简介：本文提出了一个整合元学习和对抗性逆强化学习的框架(Meta-AIRL)，该模型从演示中同时学习策略函数和奖励函数，并通过对鉴别器和生成器使用不同的更新频率和元学习速率，对有限数据样本下的新任务快速适应。该模型已被应用于自动驾驶领域中具有挑战性的决策任务。其能够在有限的演示条件下快速适应新任务，并取得与专家模型相当的满意结果。

论文地址：https://arxiv.org/pdf/2103.12694.pdf

标题：Counterfactual Explanation with Multi-Agent Reinforcement Learning for Drug Target Prediction

//基于多智能体强化学习反事实解释的药物目标预测了解详情

简介：本文提出了MACDA(多智能体反事实药物-目标结合亲和力)的多智能体强化学习框架，其使用强化学习来生成反事实解释，该反事实解释最大化结合亲和力的变化与原始解释之间的相似性。研究表明了该框架的优越性。

论文地址：https://arxiv.org/pdf/2103.12983.pdf

标题：The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication

//具有高效通信的联合多智能体强化学习的梯度收敛界）了解详情

简介：本文为了分析FMARL范式下策略迭代解的收敛边界，利用SGD的优势和联合学习的特点对随机策略梯度过程进行了优化，通过对理论收敛范围的分析和大量仿真，验证了所提出方法的有效性和高效性。

论文地址：https://arxiv.org/pdf/2103.13026.pdf

标题：CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based RL

//CLAMGen : 基于多视图视觉的强化学习生成闭环手臂运动）了解详情

简介：本文提出CLAMGen–基于视觉的强化学习(RL)算法，用于手臂伸展问题的闭环轨迹生成.该方法利用贪婪的目标获得RL策略作为基础来改进探索，并将残差状态-动作值和从图像中学到的残差动作增强到基础策略以避免障碍。

论文地址：https://arxiv.org/pdf/2103.13267.pdf

标题：Spatial Intention Maps for Multi-Agent Mobile Manipulation

//基于多智能体移动操作的空间意图映射了解详情

简介：本文提出了空间意图映射框架，以改善多智能体RL的协作。在该框架中，意图被空间编码在2D地图中，允许基于视觉的RL代理在空间上推理与状态和动作相同的领域中的意图。其帮助机器人团队学习紧急协作行为，如避免碰撞、协调通过瓶颈和以及在整个环境中分布。

论文地址：https://arxiv.org/pdf/2103.12710.pdf

研究动态

DeepMind提出基于视觉的强化学习模型，十八般兵器对机器人不在话下了解详情

人类是擅于模仿的，我们和其他动物通过观察行为来模仿，理解它对环境状态的感知影响，并找出我们的身体可以采取什么行动来达到类似的结果。DeepMind最新论文主要探索了仅从第三人称视觉模仿操作轨迹的可能性，而不依赖action状态，团队的灵感来自于一个机器人机械手模仿视觉上演示的复杂的行为。

论文链接：https://arxiv.org/pdf/2103.09016.pdf

强化学习模拟自适应免疫系统，或能带来新的免疫学见解了解详情

东京大学工业科学研究所的两名科学家展示了自适应免疫系统如何使用类似于强化学习的方法来控制免疫反应以重复感染。这项工作将有助于我们对自适应免疫作为一种学习系统的理解，可以显著改善疫苗的研发工作和感染的治疗方案。这项研究成果于3月9日以「将自适应免疫系统理解为强化学习」（Understanding Adaptive Immune System as Reinforcement Learning）为题发表在《物理评论研究》（Physical Review Research）杂志上。

论文链接：

https://doi.org/10.1103/PhysRevResearch.3.013222

Scientific Reports｜利用强化学习和对接生成分子，开发新抑制剂了解详情

本文开发了一种计算方法，称为强化学习和对接的分子优化(MORLD)，它通过结合强化学习和对接来自动生成和优化先导化合物，以开发新抑制剂。该模型只需要目标蛋白结构，通过直接修饰配体结构，就可以在没有任何其他训练数据的情况下获得具有更高目标蛋白预测结合强度的分子。

论文链接：

https://www.nature.com/articles/s41598-020-78537-2

研究综述

强化学习应用简述了解详情

本文简单列举一些强化学习的成功案例，然后对强化学习做简介，介绍两个例子：最短路径和围棋，讨论如何应用强化学习，讨论一些仍然存在的问题和建议，介绍《机器学习》强化学习应用专刊和强化学习应用研讨会，介绍强化学习资料，回顾强化学习简史，最后，简单讨论强化学习的前景。

原文链接：

https://zhuanlan.zhihu.com/p/279642231

【123页综述】博弈论视角下的多智能体强化学习综述了解详情

尽管MARL在解决现实世界游戏方面取得了相当大的经验成功，但文献中缺乏一个完整的概述，无法阐述现代MARL方法的游戏理论基础并总结了最新的进展。本文通过两个有代表性的框架（即随机博弈和广泛形式博弈）以及可以解决的不同博弈形式来介绍MARL公式。并从博弈论的角度对当前的最新MARL技术进行独立评估。

综述地址：

https://arxiv.org/pdf/2011.00583.pdf

热点讨论

简析深度强化学习在机器人学习上的潜在机会了解详情

深度学习革命对机器人产业已经产生了很大影响，机器人的智能化成为一个重要的发展方向。然而，目前大多深度学习结合机器人的落地都集中在计算机视觉上，深度强化学习是机器人学习最热门的学术研究方向之一，但是在落地上却差了很多。本文从当前深度学习与机器人结合的案例开始分析，进而分析深度强化学习在机器人学习上存在的问题，最后探讨深度强化学习如何真正在机器人中落地。

教程

「强化学习导论」多伦多大学2021课程，附SLIDES与140页pdf笔记了解详情

这是一门关于在不确定情况下强化学习(RL)和顺序决策的入门课程，重点在于理解理论基础。我们研究如何使用动态规划方法，如价值和策略迭代，来解决具有已知模型的顺序决策问题，以及如何扩展这些方法，以解决模型未知的强化学习问题。

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→强化学习”）

《强化学习周刊》第2期：多智能体强化学习（MARL）赋能“AI智能时代”

Published by

风君子