作者| nrdkn,zxd是
单位北京航空航天大学
2017年,Ashish Vaswani等人在《Attention Is All You Need》这篇文章中提出了Transformer模型后,BERT等的工作大大扩大了该模型在NLP等任务中的影响力。 随之,Transformer模型的改进和应用成为人工智能研究的热门。
回顾Transformer模型的起源,其最初作为有效的顺序语言建模的新方法被提出,只使用自我注意机制(Self-attention Mechanism )进行网络结构建模,但以序列数据的依赖为之后,由于预训练模式的发展和普及,Transformer类模式极大地推动了自然语言处理下游任务的发展。
虽然得到了广泛的应用,但转换器模型自身存在的内存开销和计算效率瓶颈,产生了大幅改善转换器以降低开销、提高效果的研究。
同时,Transformer模型不仅局限于自然语言处理领域的应用,许多研究者将Transformer引入推荐系统、时间序列预测、计算机视觉、图形神经网络以及多模态等领域,在许多领域备受瞩目
2月4日召开的AAAI 2021上也同样出现了大量关于转换器的研究。 本文将涵盖约40篇论文,从自适应、更高效的模型体系结构、更深入的分析和更多样化的应用几个方面介绍转换器在本届大会上的最新进展。
1自注意力极致的变体
自我注意机制是一种特殊的attention模型,简单的概括就是自己学习自己的表达过程。
特别是,由于自我提醒的计算/内存开销与输入输出的序列长度相关,因此大规模的转换器模型需要使用大量的计算资源,昂贵的训练和部署成本阻碍了模型的应用。 它还限制了“变换器”模型对长序列数据的处理能力。
因此,研究注意力机制的变体,实现高效的Transformer成为重要的研究方向。
Informer[1]根据自身注意机制中存在的查询稀疏性(attention的长尾分布),选择top-u进行query-key对的部分计算,代替标准的自适应
减少到。
Nystrmformer[2]将nystrm方法应用于注意力机制的近似,使用landmark (作者称为nystrm ) ) point重构自证明中的软件最大注意矩阵,从而生成nn
2更高效的自注意力模型架构
不仅改变了集中注意力的机制本身,积极压缩模型结构,获得与原网络结构相近的效果,也是获得高效转换器的重要手段。
[3]基于“转换器解码器”的数学推导,证明了在适当的条件下压缩“转换器”的基本子层可以简化模型结构,获得更高的并行度,提出了子层数为1的解码器进行“转换器”。
除了Informer[1]在时序问题上提出使用自我提醒蒸馏机制外,各层的Encdoer还将输入序列的长度减少了一半,大幅减少了Encoder的内存开销和计算时间; 另外,提出了在解码器结构中使用生成式结构,可以一次生成所有预测序列,从而大幅缩短预测解码所需的时间。
CP Transformer[4]模仿在动态图上形成hyperedge的方式,将token的embedding集成起来实现序列的压缩,在音乐建模中使用更短的训练和推理时间进行Transformer-XL
faster depth-adaptive transformer [5]提出了基于互信息和重构损耗的两种估计方法,事先估计了所需的深度,速度比原transformer快7倍,且效率和鲁棒性比其他深度自适应方法有所提高
另外,GPKD[6]是一种基于组序列的知识蒸馏方法,可以将深度变换模型压缩成浅层模型,且性能牺牲小,其性能大大优于SKD方法。
LRC-BERT[7]提出了基于比较学习的知识蒸馏方法,从角度距离的角度拟合中间输出,并在训练阶段引入了基于梯度摄动的训练体系
以提高模型鲁棒性。
3对Transformer架构更深入的分析
伴随Transformer的广泛应用,对于其内部工作机理的研究以及对模型的攻击和防护也更加关键。
[8]提出了一种自注意力归因方法,给出了Transformer内部的信息交互的一种诠释,利用归因得分推导出交互树,进一步合理可视化自注意力机制;该方法能识别出重要的注意头,形成了一种注意头修剪方法;并且还可以用来构造对抗触发器来实现非目标攻击。
Ashim Gupta等人[9]则研究了BERT家族中的大模型对于不连贯输入的响应,定义了简单的启发式方法来构造例子,使目前的模型都无法有效区分这些无效文本;同时这些输入可以被显式地加入训练,模型可以在不降低性能的情况下对此类攻击具有鲁棒性。
Madhura Pande等人[14]的研究提出了一个统一方法来分析Multi-head Self-Attention中各注意头,通过筛选偏倚得分来获得分头功能作用,假设检验确保了统计显著性;作为一种新视角,作者同时还研究了任务微调对注意力角色的影响及关联问题。
4将Transformer拓展到更多样的应用
值得关注的是,Transformer模型相关的应用已经不局限于自然语言处理领域[18-25],在时序预测、图网络、计算机视觉以及多模态等领域,类Transformer模型也展现出了不俗的效果。
Informer[1]的研究表明Transformer在时间序列(长序列预测)中拥有更加出色的建模能力。CNMT[10]利用OCR系统和多模态Transformer进行TextCaps任务。
而针对图像字幕生成任务,GET[11]设计了一种全局增强的Transformer来提取更全面的表示,其包括一个全局增强编码器来捕捉全局特征和一个全局自适应解码器来指导字幕的生成,从而得到高质量的字幕。
DLCT[12]同样是研究图像字幕生成,这是一种双层协同Transformer模型;其设计了综合关系注意(CRA)和双向自我注意(DWSA)的层次内融合,合并了区域和网格的外观和几何特征;通过一种应用局部约束交叉注意(LCCA)的几何对齐图实现特征增强,解决了两种特征直接融合引起的语义噪声问题。
针对视听场景感知对话问题,STSGR[13]提出了一种新的层次图表示学习和基于Transformer的推理框架,模型能够产生对象、框架和视频级别的表示,并被系统集成来产生视觉记忆;这些记忆则以输入问题为条件,使用一个Shuffled Transformer,顺序地融合到其他知识(如对话历史等)的编码中。
图注意力转换编码器GATE[15]提出利用Self-Attention机制,明确地融合结构信息来学习不同句法距离的单词之间的依赖关系,对细粒度句法结构信息进行建模,来生成结构化的上下文表示;从而解决GCNs很难对具有长期依赖关系的单词建模,让依赖树中没有直接连接的元素得到了更健壮的表示。
RpBERT[16]针对推文中与文本无关的图像在多模态学习中的视觉注意力问题进行了研究,提出了一种基于“文本-图像”关系推理及传播的多模态模型;模型通过文本图像关系分类和下游NER的多重任务进行训练,并在MNER数据集上实现了最先进的性能。
ActionBert[17]将Bert应用到UI任务中,探索跟踪用户动作来构建通用特征表示,以促进用户界面的理解;模型利用用户交互追踪中的视觉、语言和领域特定的特征来预先训练UI及其组件的一般特征表示,得到一个预先训练的用户界面嵌入模型,并应用到多个用户界面理解任务中。
参考资料
[1] Informer: 清脆的冬瓜 Efficient Transformer for Long Sequence Time-Series Forecasting
[2] Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention
[3] An Efficient Transformer Decoder with Compressed Sub-layers
[4] Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs
[5] Faster Depth-Adaptive Transformers
[6] Learning Light-Weight Translation Models from Deep Transformer
[7] LRC-BERT: Latent-representation Contrastive Knowledge Distillation for Natural Language Understanding
[8] Self-Attention Attribution: Interpreting Information Interactions Inside Transformer
[9] BERT & Family Eat Word Salad: Experiments with Text Understanding
[10] Confidence-aware Non-repetitive Multimodal Transformers for TextCaps
[11] Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network
[12] Dual-Level Collaborative Transformer for Image Captioning
[13] Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers
[14] The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT
[15] GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction
[16] RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER
[17] ActionBert: Leveraging User Actions for Semantic Understanding of User Interfaces
[18] Contrastive Triple Extraction with Generative Transformer
[19] LightXML: Transformer with Dynamic Negative Sampling for High-Performance Extreme Multi-label Text Classification
[20] Future-Guided Incremental Transformer for Simultaneous Translation
[21] Segatron: Segment-Aware Transformer for Language Modeling and Understanding
[22] Paragraph-level Commonsense Transformers with Recurrent Memory
[23] Context-Guided BERT for Targeted Aspect-Based Sentiment Analysis
[24] IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization
[25] DialogBERT: Discourse-Aware Response Generation via Learning to Recover and Rank Utterances