作者：周寅张皓、梦佳、贾伟

2 月 4 日，人工智能顶会 AAAI 2021（第 35 届 AAAI 大会）以在线虚拟会议的形式正式拉开序幕，并将持续到 2 月 9 日结束。

本届AAAI大会投稿量再创新高，达到9071篇摘要论文，7133篇完整论文，1692 篇论文被接收，录取率为21%。相比2020年，今年 AAAI 投稿量同比增长16.7%，录用论文同比增长6%。

本届大会主席由微众银行首席人工智能官杨强担任，杨强教授是 AAAI 大会历史上第二位大会主席，也是担任此职位的首位华人。

此外，英属哥伦比亚大学的Kevin Leyton-Brown 和印度理工学院的 Mausam 联合担任 AAAI 2021 的程序委员会主席。鉴于会议规模的扩大，本届会议另行增加了两位助理PC主席，负责处理所有决策事项。

开幕式上，由PC主席Mausam公布了本届最佳论文等各大引人瞩目的奖项。其中最佳论文奖共有三篇，其中两篇一作为华人学者：

一篇由来自北京航空航天大学的周号益、UC伯克利的Shanghang Zhang等人获得，论文提出了Transformer的改进 Informer；

另一篇为最佳AISI论文奖，由来自达特茅斯学院的Ruibo Liu和Lili Wang 等人获得，提出了衡量GPT-2生成中的政治偏见的指标。另一篇最佳论文奖由来自新加坡科技设计大学的Stefanos Leonardos等人获得，提出了Q学习的平滑模拟。

此外，在三篇Runner-Up论文中，也同样有两篇由华人学者获得，其中一篇来自北航、微软研究院的合作团队，工作提出了一种自注意归因算法来解释Transformer内部的信息交互；另一篇来自哈佛大学、卡内基·梅隆大学的合作团队，研究将涉巡逻与偷猎视为随机的多臂老虎机问题。另一篇 Runner Up论文为加州大学伯克利分校的Romain Lopez等人获得，研究了在极大的动作空间中通过Bandit Feedback进行批处理学习的问题。

在本次最佳论文中，可以看出关键词为：北航、Transformer。北航的学者分别以一作身份获得了一篇最佳论文奖和一篇Runner Up 奖；而另一方面，有多篇最佳论文的研究都在围绕Transformer进行开展，足以说明Transformer成为当下最为关注的研究问题之一。

中国投稿量高居榜首，机器学习领域之最

据PC主席Mausam 表示，本次AAAI 2021共有9493位PC成员、606位高级PC成员、以及246位领域主席，平均来说，每位PC成员会评审2.82篇论文（最低 0 篇，最高 6 篇）。整个评审过程分为两个阶段，其中第一阶段拒掉37%的论文（也即2615篇）。

论文投稿数量上，延续以往数年的势头，本届会议的投稿数量依然上升，逼近万篇大关。但相比于2018、2019两年的疯狂趋势，目前的增长似乎有所减缓。

值得一提的是，本届会议共有84个国家投稿，被接收论文共来自53个国家。毫无疑问的是，来自中国的论文数量占据绝对优势：3319篇投稿，627篇被接收；相比第二名美国（1822，455）高出不少。

但一旦提及接收率，中国往往较为尴尬，在排名前十七的国家和地区中，来自中国大陆的论文接收率处于中等偏下水平，倒数第五名，反而是澳地利、意大利、以色列等国家的论文质量更高一些。

此外，Mausam还介绍了按领域划分的趋势。投中论文数最多的前几个领域依旧是机器学习、计算机视觉、语音与自然语言处理、数据挖掘&知识管理、应用领域、博弈论和经济范畴等。当然我们也可以看到其他比较有趣的领域，例如知识表示和推理、AISI、规划、AI哲学伦理等。

相比于2020年，本年度的论文数量整体上升，这要归功于每个领域论文数量的上升，例如博弈论和经济范畴增加了21篇（增加30%）。不过并非所有领域都有走高趋势，例如语音和NLP的接受论文便下降了30多篇（下降13%）。

而另一个维度，从接收率上，约束满足和优化直接从23.8%上升到43%，近乎一半的投稿论文都被录用了。类似的，博弈论&经济范畴、搜索&优化、路径规划、知识表示&推理等，都有着较高的录用率。作为对比，人类计算&众包等领域的接收率则远低于平均录用水平。

AAAI 2021 最佳论文奖：两篇华人一作

本次大会的最佳论文奖委员会由大会主席杨强教授、南加州大学的沙飞、罗切斯特大学的罗杰波、亚利桑那州立大学的刘欢、佐治亚理工学院的Pascal van Hentenryck 以及滑铁卢大学的Pascal Poupart组成。

本次大会有三篇论文高中Best Papers，值得一提的是当中有两篇一作均为华人。

题目：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

作者：Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, Wancai Zhang

一作Haoyi Zhou，北京航空航天大学博士

机构：北京航空航天大学、UC伯克利、罗格斯大学以及北京国网富达科技发展公司

论文链接：https://arxiv.org/pdf/2012.07436.pdf

摘要：许多实际应用需要对长序列时间序列进行预测，例如耗电量计划。长序列时间序列预测（LSTF）需要模型具备高预测能力，即能够有效捕获输出和输入之间精确的长程依赖。最近的研究表明Transformer能够提高预测能力，但应用与LSTM面临几个严重的问题，有：二次时间复杂度，高内存使用率，以及编码器-解码器体系结构的固有限制。为了解决这些问题，我们为LSTF设计了一个有效的基于Transformer的模型——Informer，它具有三个独特的特征：（i）ProbSparse自注意机制，该机制在时间复杂度和内存使用上达到O(L\log{L})，并且在序列依赖性比对方面具有可比性。（ii）自注意蒸馏通过将级联层输入减半而突出了注意力，并有效地处理了极长的输入序列。（iii）生成样式解码器虽然在概念上很简单，但它会在一次向前操作中预测较长的时间序列序列，而不是一步一步地进行预测，从而极大地提高了长序列预测的推断速度。在四个大型数据集上进行的大量实验表明，Informer的性能明显优于现有方法，并为LSTF问题提供了新的解决方案。

题目：Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

作者：Stefanos Leonardos, Georgios Piliouras

机构：新加坡科技设计大学

论文链接：https://arxiv.org/abs/2012.03083

摘要：探索开发是多智能体学习（MAL）中强大而实用的工具，但人们远未理解其效能。为了探索这个目标，我们研究了Q学习的平滑模拟。首先，我们证明我们的学习模型作为探索-利用的最佳模型。具体而言，我们证明了平稳的Q学习在任意博弈中有受限回归的cost模型，该cost模型可明确捕获探索和利用的cost之间的平衡，并且始终收敛于标准解决方案概念的量化响应均衡（QRE）集，适用于有限理性下的博弈与具有异构学习主体的加权潜在博弈。在我们的主要任务中，我们将转向衡量探索对集体系统绩效的影响。我们在低维MAL系统中表征QRE表面的几何形状，并将我们的发现与突变（分叉）理论联系起来。尤其是，随着探索超参数的逐步发展，系统会经历相变，在此过程中，给定探索参数的无穷小变化，平衡的数量和稳定性可能会发生根本性的变化。在此基础上，我们提供了一种形式上的理论处理方法，即如何调整探索参数可以可证明地导致均衡选择，同时对系统性能产生积极和消极（以及可能无限的）影响。

题目：Mitigating Political Bias in Language Models Through Reinforced Calibration (Best AISI Paper)

作者：Ruibo Liu, Chenyan Jia, Jason Wei, Guangxuan Xu, Lili Wang, Soroush Vosoughi

一作Riubo Liu，达特茅斯学院计算机博士

机构：达特茅斯学院、得克萨斯大学奥斯汀分校、ProtagoLabs

论文链接：https://www.aaai.org/AAAI21Papers/AISI-8076.LiuR.pdf

摘要：当前的大规模语言模型可能由于其训练数据的影响产生偏见，可能在现实环境中导致严重的问题。本文提出了衡量GPT-2生成中的政治偏见的指标，并提出了一种强化学习（RL）框架，用于缓解生成的文本中的政治偏见。通过使用来自词嵌入或分类器的奖励，我们的RL框架无需访问训练数据或要求对模型进行重新训练即可指导去偏生成。在对政治偏见敏感的三个属性（性别，位置和主题）的实证实验中，我们的方法根据我们的指标和人工评估减少了偏见，同时保持了可读性和语义一致性。

最佳论文Runners Up奖

此外，还有三篇入围Best Paper Runners Up。

题目：Learning From EXtreme Bandit Feedback

作者：Romain Lopez, Inderjit Dhillon, Michael I. Jordan

机构：University of California, Berkeley, University of Texas at Austin

论文链接：https://arxiv.org/pdf/2012.07436.pdf

摘要：我们研究了在极大的动作空间中通过Bandit Feedback进行批处理学习的问题。在推荐系统中，在极端的Bandit Feedback中学习十分普遍，在推荐系统中，一天之内要对数十亿个决定进行决策，其中包括数百万个选择，从而产生了大量的观测数据。在这些大规模的现实应用中，尽管由于Bandit Feedback和受监管标签之间的不匹配而导致明显偏见，但诸如eXtreme多标签分类（XMC）之类的有监督学习框架仍被广泛使用。这种偏差可以通过重要性采样技术来缓解，但是这些技术在处理大量动作时会出现不切实际的差异。

在本文中，我们介绍了一种选择性重要性抽样估计器（sIS），该估计器在明显更有利的偏差-方差体制下运行。sIS估计器是通过每个实例的一小部分动作，针对奖励的条件期望执行重要性采样（Rao-Blackwellization的一种形式）而获得的。我们在一种新颖的算法程序中使用了该估计器，该程序名为“用于极端模型的策略优化（POXM）”，用于从对XMC任务的匪徒反馈中学习。在POXM中，为sIS估计器选择的操作是日志记录策略的前p个操作，其中p是根据数据进行调整的，并且显着小于操作空间的大小。我们在三个XMC数据集上进行了监督到强盗转换，以针对三种竞争性方法对POXM方法进行基准测试：BanditNet，先前应用的部分匹配修剪策略和监督学习baseline。虽然BanditNet有时会比日志记录策略略有改善，但我们的实验表明，POXM在所有baseline上都可以系统且显著地改善。

题目：Selt-Attention Attribution: Interpreting Information Interactions Inside Transformer

作者：Yaru Hao, Li Dong, Furu Wei, Ke Xu

机构：北京航空航天大学, 微软研究中心

论文链接：https://arxiv.org/pdf/2012.07436.pdf

摘要：基于Transformer的模型的巨大成功得益于强大的多头自注意力机制，该机制可学习Token依赖项并从输入中编码上下文信息。先前的工作将模型决策归因于具有不同显着性度量的各个输入要素，但是他们无法解释这些输入要素如何相互影响预测结果。在本文中，我们提出了一种自注意归因算法来解释Transformer内部的信息交互。我们以BERT为例进行广泛研究。首先，我们提取每一层中最显着的依存关系以构造一个归因图，该归因图揭示了Transformer内部的层次结构交互作用。此外，我们运用自我注意力归因来识别重要的注意力头，其他的头则可以被裁剪，仅仅造成一些边际损失。最后，我们证明了归因结果可用作对抗模型，以实施针对BERT的非目标攻击。

题目：Dual-Mandate Patrols: Multi-Armed Bandits for Green Security

作者：Lily Xu, Elizabeth Bondi, Fei Fang, Andrew Perrault, Kai Wang, Milind Tambe

机构：哈佛大学，卡内基梅隆大学

论文链接：https://arxiv.org/pdf/2009.06560.pdf

摘要：绿色安全领域进行保护工作由于保护人员的能力而受限，人们必须在很大范围巡逻以保护免受攻击者（例如偷猎者或非法伐木者）的侵害。保护者必须选择在保护区的每个区域花费多少时间，以平衡对不常去的地区的探索和对已知热点的利用。我们将问题描述为随机的多臂老虎机问题，其中每个动作代表巡逻策略，使我们能够保证巡逻策略的收敛速度。但是，简单的Bandit方法会为短期利益而损害长期收益，这导致了偷猎动物和破坏森林。

为了提高性能，我们利用奖励功能的平滑性和动作的可分解性。我们展示了Lipschitz连续性和分解之间的协同作用，因为它们有助于彼此的收敛。在这种情况下，我们弥合了Bandit和Lipschitz强盗之间的鸿沟，提出了一种非回归方法，在加强现有效果的同时优化短期性能。我们证明了我们的算法LIZARD在柬埔寨的现实数据中做出了改善。

AAAI 2021 最佳论文出炉！华人包揽 4 奖，北航成最大赢家，Transformer变热门

中国投稿量高居榜首，机器学习领域之最

AAAI 2021 最佳论文奖：两篇华人一作

最佳论文Runners Up奖

Published by

风君子