清华大学环境学院(邓志东 清华大学

转自学术头条

2021年4月11日,2020外向蜂人工智能科技奖十周年颁奖典礼暨2020中国人工智能产业年会在苏州举行。清华大学计算机科学系教授、副系主任帅斑马受邀在年会主论坛《浅谈人工智能 “十年”》做主题演讲。

图|清华大学计算机系帅气斑马教授

在报告中,帅气的斑马教授介绍了人工智能领域即将发生的变化:通过深度融合知识和数据,我们将在人工智能领域进行一场重大的技术革命,并洞察人类的技术未来。

以下是经过编辑的报告记录。

第三波人工智能革命已经来临

现代人工智能起源于1956年的达特茅斯会议,当时人工智能的主要流派是符号人工智能。也就是让机器描述人类的知识。从此,第二代人工智能就是感知人工智能,即让机器感知外部环境。该方法依靠大量数据驱动的统计学习方法,实现对文字、图片、语音等信息的感知和识别。

第二代人工智能出现并成熟后,人工智能领域迎来了一波爆发。通过人工智能,人类的能力已经被机器赶上了我们认为机器无法完成的事情,比如人脸识别。

然而,人工智能的两个流派都有问题。在知识驱动的人工智能框架下,人们建立了大规模的知识库和常识库,然后试图让机器描述人类的所有知识。但是这种方法不能动态变化,不能适应大规模数据和灵活的知识。在数据驱动的感知人工智能框架下,计算机模型无法解决认知问题,也无法进行推理。

因此,人工智能迫切需要新的突破和创新。现在,人类确实已经站在了第三代人工智能开启的前夜,所以我们需要明确第三代人工智能的发展方向:整合知识和数据,构建双轮驱动的人工智能框架。

双轮驱动:人工智能的未来

在这个新框架中,不可能简单地将知识和数据进行叠加,因为数据和知识融合的任务面临着来自计算科学理论、算法和基础设施的诸多挑战。只有克服了这些挑战,所有的数据和知识都被机器真正利用起来,我们才能实现真正的智能。

为了应对这一挑战,我们在清华成立了知识与智能联合实验室,还通过清华大学孵化了一家科技公司——智普华章。核心研究思路是研究数据和知识的双轮驱动,形成技术转化。

图|数据和知识的双轮驱动

具体来说,在两轮驱动的数据部分,我们做了一个超大规模的语言预训练模型,需要能够在数据中“给十比一”,也就是说要有归纳能力,从数据中提取一些深层次的知识。在两轮的知识部分,要相互推诿,进行逻辑推理。这样,我们将知识、数据、逻辑和推理结合起来,形成一个大规模的认知地图。

基于认知地图,我们启动了一个新的大型项目“知识事业”

,希望可以通过这个工程,结构知识成因,发掘科技创新源动力。并以此在未来解释知识如何推动创新,并给出一个预见的思路。

在这个工程中,我们已经取得了一些技术突破。首先在知识层面,我们搭建了一个规模很大、性能稳定的知识图谱;在数据方面我们,我们训练了一个神经网络巨模型 “悟道”。这个模型可以智能化地、有逻辑地思考,还能根据人类的需求和问题,作出回复、吟诗作画,生成视频。例如,如果我们要求 “悟道” 根据唐朝诗人王勃的风格写一首以 “悟道” 为主题的诗歌,诗歌中会包含以下两句:“慧业苦研久成,禅风散尽见真际。” 其中前一句描述了通过超大规模数据和超大规模算力来做计算的过程,后面这句描述了最终从数据中挖掘出知识后的感悟。除了写诗以外,悟道还能生成一段话、根据一句话作图,以及生成视频。

图 | 悟道模型以 “悟道” 为主题生成的诗歌

总的来说,我们通过知识图谱和巨模型等技术,在数据中结合了知识,做了一些双轮驱动地推动人工智能领域的工作。我们的目标就是让下一代的机器中的人工智能在 10 年后,能把知识和数据融会贯通,像人类一样思考未来。

认知智能洞悉技术趋势

利用我们提出的双轮驱动的认知智能技术框架,我们首先研究的就是科学技术领域的脉络。因为科学技术前沿是人类知识最富集的领域,所以也是让具有认知能力的人工智能发挥性能的最佳场所。通过对学术论文、专利等科技信息进行分析,我们可以自动地发现和分析很多重要的科技进展趋势。

举个例子,我们都知道美国对中国的芯片技术存在新型技术出口管制,可能也会知道光刻机是一个重要的被管制的技术。所以我们就希望在芯片(特别是光刻机)领域研究一下,我们具体被管制的关键技术点是什么。

通过认知智能模型,我们可以自动生成芯片的整体技术脉络。其中,光刻机是技术脉络中的一个点。光刻机下游是一些相关的芯片制造技术,上游则是流体力学和激光物理这些相对理论的技术。在用认知智能进行技术分析后,我们发现了两个被卡脖子的技术,就分别存在于流体力学和激光物理学这两个领域。

2001 年,麻省理工学院的 Mordechai Rothschild 发表论文提出了浸没式光刻技术。2004 年,yjdhs为这个技术申请了一个专利,这项专利也成为了整个台积电的内核。此后,台积电和荷兰的阿斯麦(ASML)合作,极大地扩展了后者的光刻机市场。2006 年,激光物理领域里出现了极紫外光源技术,其中有两个专利由 RP.Akins 发明,他依靠这两个技术成立了一个叫 Cymer 的公司。2012 年,阿斯麦收购了 Cymer 公司,于是迅速垄断了世界上 70% 的光刻机市场。同一年,英特尔投资了阿斯麦,协议中包括满足对另一个国家施加压力的条款。最终,中国正是在这一个条款下被卡了脖子。

图 | 利用认知智能分析芯片领域的关键技术点

通过上图,我们可以看到整个故事背景,蓝色的线条贯穿了不同的技术脉络,正是这些技术组成了我们在芯片领域中急需的技术。这就是我们说追根溯源,探求本质。

以上的技术分析如果用传统的方法是没有可能完成的。如果只靠知识,成本会非常高,之前类似的项目都基本停滞了。如果纯靠数据驱动的机器学习方法,则没有办法产生推理和认知的能力,难以洞悉技术脉络的本质。

2021 年度 AI 2000 正式发布

利用上面介绍的模型框架,我们搭建了一个科技趋势分析的系统https://analysis.aminer.cn/。在这个系统中,我们依靠数据和知识双轮驱动的方法,对技术追根朔源,进行深度解析。比如,在系统中,我们可以看到过去 10 年中最重要的技术,以及这些技术到底是如何产生的,发展过程中存在哪些重要事件和突破。我们还能自动判断这些技术目前所处的状态,并预测它们未来发展的趋势。

我们还发布了 AI Open Index,这是一个行业趋势分析的系列研究报告。其中的《2021 年度 AI 2000》榜单包括了人工智能领域中高影响力的学者做出了精准画像。自去年开始,《AI 2000》每年都会发布 200 名 “AI 2000 最具影响力学者奖”,以及 1800 名提名奖。预计到 2029 年,会有 2000 名学者获奖。

图 | 清华大学 AMiner 发布的 AI Open Index 系列榜单

《AI 2000》的评选流程包括邀请专家指定的 49 家顶级的期刊会议。随后,清华大学 AMiner 采用智能算法,从这些期刊会议中提取了 17.8 万篇论文和 20 万名作者,自动生成影响力排名。最终,从每个人工智能的子领域中选择 100 名被提名学者和 10 名获奖学者。

从国家的角度来说,有 58.2% 的学者来自美国。中国的获奖学者数占比 11.1%,可以排到第二。来自德国的学者数排名第三,是欧洲学者数量最多的国家。其他国家的学者数量均在 100 人次以下。

从机构的角度来说,排在前两位的机构都是企业,分别是谷歌和微软。清华大学是唯一进入前十的中国机构。

此外,我们还可以在 AI Open Index 上查看《人工智能全球女性榜单》和《全球人工智能最具创新力城市榜单》。在全球人工智能创新城市 500 强中,中国有 32 个城市上榜。

所以,在人工智能技术的发展长河中,我们现在已经到了一个变革的时间节点。我们需要利用智能技术,既知其然,又知其所以然。我们要探究每一件事情的本质,我们要知道科技发展的原因,也要知道科技发展的未来。所以我们把这项大工程叫做知识基因工程。我们希望利用知识和数据的双轮驱动技术,解构知识发展成因,挖掘科技创新的原动力,预见未来,引领未来。

传送门——

“悟道” 作诗链接:

https://turing-poet.aminer.cn/index.html

“悟道” 画作生成

https://lab.aminer.cn/cogview/index.html

科技趋势分析

https://analysis.aminer.cn/

AI Open Index

http://aiopenindex.com/

《2021 年人工智能全球最具影响力学者报告》下载链接:

https://static.aminer.cn/misc/pdf/AI200021.pdf

《人工智能发展报告 2020》下载链接:

https://static.aminer.cn/misc/pdf/zpAIreport2020.pdf

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注