AI 系统的发展趋势与挑战 | 智源大会-AI系统专题论坛

AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一，在创新方法器件、体系架构、优化加速等方面都取得的相当大的进展。AI系统分论坛将围绕这一领域的最新学术研究进展，以及包括MindSpore、飞桨2.0等产业界核心工作的设计与实践展开。

专题论坛：AI系

议程

嘉宾介绍

主持人-陈文光

清华大学计算机系教授，主要研究领域为操作系统、程序设计语言与并行计算，国家自然科学基金杰出青年基金获得者。获国家科技进步二等奖一次，部级科技一等奖两次。现为中国计算机学会杰出会员和杰出讲者，副秘书长，青年科技论坛荣誉委员；ACM中国理事会主席，ACM中国操作系统分会ChinaSys主席，ACM通讯中文版主编。

报告嘉宾-胡事民

胡事民，清华大学计算机系教授，主要研究方向为计算机图形学、虚拟现实、智能信息处理和系统软件等。2002年获国家杰出青年基金资助，2006-2015年担任两期国家973计划项目首席科学家，2007年入选教育部长江学者特聘教授，2013年入选国家“万人计划”科技领军人才，2016年起担任国家自然科学基金委创新研究群体学术带头人。在ACM TOG/SIGGRAPH、IEEE CVPR等重要刊物和国际会议上发表论文100余篇。现为中国计算机学会副理事长，并担任Computational Visual Media主编和CAD等多个期刊编委。

报告主题：深度几何学习与“计图”框架新进展

报告摘要：深度学习框架是现代人工智能算法开发和应用的软件基础支撑，自主可控的深度学习框架是推动中国人工智能更好发展的必然要求。计图(Jittor)是国内首个由高校研制和开源的深度学习框架。Jittor框架创新地使用了元算子融合和动态编译技术，并基于所提出“统一计算图”的思想，使得在多种任务性能上超越国外主流平台。本报告拟介绍Jittor框架的多项创新技术和最新进展，并重点介绍基于Jittor框架的理论研究，包括基于Jittor构建的从点云、网格到隐式场的深度几何学习体系。

报告嘉宾-袁进辉

袁进辉，一流科技创始人。2008年7月自清华大学计算机系获得工学博士学位，获得清华大学优秀博士学位论文奖，前MSRA（微软亚洲研究院）研究员，360搜索早期成员。曾开发鹰眼系统，被中国国家队作为日常训练辅助系统，2013-2016年，其在MSRA从事大规模机器学习平台研发工作，2014年其研发出当时世界上最快的主题模型训练算法和系统LightLDA，被应用于微软在线广告系统。曾在计算机视觉及多媒体领域顶级会议上发表多篇论文。

报告主题：为什么我们需要重新设计分布式深度学习框架？（Why do we need to redesign the distributed deep learning frameworks?）

报告摘要：近来，大规模预训练模型因其在文本生成等应用上优异的表现而备受关注，但通用深度学习框架无法直接支持此类需求，主要原因是大模型面临严峻的“内存墙”的挑战。通用深度学习框架仅支持数据并行，还不能支持大规模预训练模型所需要的模型并行、流水并行等技术，只有高度定制的专用软件系统（如InsightFace, HugeCTR, Megatron-LM, DeepSpeed等）才能满足需求。如何在通用深度学习框架统一、灵活、高效的支持这些技术挑战成为业界研究热点，本报告将梳理和总结大规模预训练模型时所面临的技术挑战和基本解决思路，深度解析已开源的主流解决方案的技术原理和优缺点，探讨为何需要重新设计和实现新一代深度学习框架，介绍开源深度学习框架OneFlow的设计理念和技术实现，以及对未来发展方向进行展望。

报告嘉宾-陈德颢

陈德颢于2011年在清华大学高性能计算所取得编译优化方向博士学位后加入Google，将博士课题扩展为工业级自动剖析优化系统(AutoFDO)，广泛应用于多家互联网公司的生产系统及消费电子产品。随后进入TPU团队负责机器学习应用在TPU上的性能优化及可扩展性调优。本报告与谷歌研究院合作展示了团队在大规模可扩展训练中的阶段性成果。陈德颢目前就职于Waymo公司负责车载计算部件的软硬件协同设计以及性能优化。

报告主题：GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

报告摘要：Neural network scaling has been critical for improving the model quality in many real-world machine learning applications with vast amounts of training data and compute. Although this trend of scaling is affirmed to be a sure-fire approach for better model quality, there are challenges on the path such as the computation cost, ease of programming, and efficient implementation on parallel devices. In this paper, we demonstrate conditional computation as a remedy to the above-mentioned impediments and demonstrate its efficacy and utility. We make extensive use of GShard, a module composed of a set of lightweight annotation APIs and an extension to the XLA compiler to enable large-scale models with up to trillions of parameters. GShard and conditional computation enable us to scale up multilingual neural machine translation Transformer model with Sparsely-Gated Mixture-of-Experts. We demonstrate that such a giant model with 600 billion parameters can efficiently be trained on 2048 TPU v3 cores in 4 days to achieve far superior quality for translation from 100 languages to English compared to the prior art.

Code Of Ethics: I acknowledge that I and all co-authors of this work have read and commit to adhering to the ICLR Code of Ethics.

报告嘉宾-贾志豪

贾志豪目前是Facebook研究员，将于2021年秋加入卡内基梅隆大学担任计算机科学助理教授。他在斯坦福大学获得计算机科学博士学位。研究兴趣主要为计算机系统和机器学习的交叉领域，致力于构建高效、可扩展和高性能的机器学习计算系统。

报告主题: Automated Discovery of Machine Learning Optimizations

报告摘要: As an increasingly important workload, machine learning (ML) applications require different performance optimization techniques from traditional runtimes and compilers. In particular, to accelerate ML applications, it is generally necessary to perform ML computations on heterogeneous hardware and parallelize computations using multiple data dimensions, neither of which is even expressible in traditional compilers and runtimes. In this talk, I will present our recent work on automated discovery of performance optimizations to accelerate ML computations.

TASO, the Tensor Algebra SuperOptimizer, optimizes the computation graphs of deep neural networks (DNNs) by automatically generating potential graph optimizations and formally verifying their correctness. TASO outperforms rule-based graph optimizers in existing ML systems (e.g., TensorFlow, TensorRT, and TVM) by up to 3x by automatically discovering novel graph optimizations, while also requiring significantly less human effort.

FlexFlow is a system for accelerating distributed DNN training. FlexFlow identifies parallelization dimensions not considered in existing ML systems (e.g., TensorFlow and PyTorch) and automatically discovers fast parallelization strategies for a specific parallel machine. Companies and national labs are using FlexFlow to train production ML models that do not scale well in current ML systems, achieving over 10x performance improvement.

报告嘉宾-金雪峰

金雪锋，华为开源AI框架MindSpore的首席架构师，华为2012实验室中央软件院架构与设计部部长，主要的研究兴趣主要在OS、DB、中间件和AI框架、编译器与编程语言等基础软件领域，先后主持华为公司的嵌入式电信软件平台、大数据&分布式数据库以及AI框架MindSpore的架构设计工作。

报告主题：MindSpore的设计理念以及在盘古大模型上的实践

报告摘要：本次报告主要从AI框架的未来驱动力和挑战出发，介绍华为开源AI框架MindSpore的整体设计理念，并结合千亿参数大模型盘古的训练实践，分享MindSpore在大规模模型训练方面的关键技术。

报告嘉宾-林伟

林伟，阿里云智能计算平台事业部研究员，十五年大数据超大规模分布式系统经验，负责阿里巴巴大数据MaxCompute和机器学习PAI平台整体设计和构架，推动MaxCompute2.0，以及PAI2.0、PAI3.0的演进。加入阿里之前是微软大数据Cosmos/Scope的核心成员，在微软研究院做分布式系统方面的研究，分别致力于分布式NoSQL存储系统PacificA、分布式大规模批处理Scope、调度系统Apollo、流计算StreamScope以及ScopeML分布式机器学习的工作。在ODSI、NSDI、SOSP、SIGMOD等系统领域顶级会议发表十余篇论文。

报告嘉宾-胡晓光

胡晓光，百度深度学习技术平台部主任架构师，多年深度学习算法实践经验，2015年带领团队上线全球首个基于深度学习的在线翻译引擎；现负责飞桨核心框架应用开发，包括大量前沿的模型算法库的研发，致力于打造最好用的深度学习平台，服务广大AI开发者。

2021智源大会群英荟萃，已确认出席嘉宾包括图灵奖得主Yoshua Bengio、David Patterson，以及人工智能各领域多位世界级的专家。本届大会采用线上+线下模式，线上报名已开启，线下参会和官网即将公开。

人工智能领域不容错过的内行分享，等你一同见证！

扫码加入「AI系统」论坛交流群，参与相关话题讨论

AI 系统的发展趋势与挑战 | 智源大会-AI系统专题论坛

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复