中国AI人才图鉴:59%的中国籍研究员隶属美国研究机构

  大数据文摘出品

  编译:Walker、蒋宝尚

  研究人员很容易被人们忽略,但不可否认,他们才是所有 AI 生态系统的核心组成部分。

  长期以来,中国和美国在人工智能方面的实力对比一直存在争议,但相关的数据支撑较弱。

  因此,根据专家认可的顶级 AI 年度会议上发表的论文,保尔森研究所宏观政策智库研究员在 Macarpolo 创建了一个原始数据集,为评估中美 AI 科研人员的数量和质量提供了一份充分的数据依据。

  领先的 AI 研究都是相对开源的,因此人才也是其生态系统组成部分中最容易被直接量化的指标之一。保尔森研究所搜集了已发表的研究数据,试图从人工智能研究员的分布,获取各国人工智能研究发展情况。

  神经信息处理系统大会(原名 Neural Information Processing Systems,NeurIPS)是人工智能和机器学习领域最重要的盛会。保尔森研究所对 NeurIPS 2018 论文进行了完整的分析,并从以下几个方面得出了结论:

  • 研究质量 (基于顶级或高质量的研究);
  • 顶尖人才来自哪里(基于作者的原籍国);
  • 人才的培养地(基于作者攻读研究生的国家);
  • 以及作者现在学习或工作的地方(基于作者目前的隶属关系)。

  以下是一些研究要点

  1. 在顶尖的 AI 研究中,中国的研究人员所占比例相对较小(约 9%),但高质量的 AI 研究中所占比例较大(约 25%)。

  根据研究员 Joy Dantong ma 最近对在 NeurIPS 2018 上发表的演讲中对顶级论文作者进行的数据分析,在 113 名作者中有 10 人是中国国籍。

  尤其值得注意的是,他发现,目前这十位中国国籍的精英论文作者都附属于或即将加入美国研究机构(大学或公司)。这与 Jeffrey Ding 先前对 2017 年 NeurIPS 演讲的作者的分析相呼应,该分析发现,其中 14% 的作者来自中国,但目前只有1% 在中国研究机构工作。

  在 2018 年,我们对高质量(但非顶尖)出版物进行了相同的原籍国分析,发现在 3824 名作者中,约四分之一(955) 是中国国籍。

  这一发现表明,虽然中国国籍的研究人员还没有完全攀登至 AI 研究金字塔的顶端,但他们在上层 AI 研究中占了相当大的比例。

  2. 大多数中国国籍的研究人员都是在美国的研究机构中进行 AI 研究的。

  目前,在中国国籍的高级研究人员中,大多数(59%)隶属于美国研究机构,33% 隶属于中国研究机构,约9% 隶属于加拿大、新加坡和日本等其他国家。

  这表明,虽然大部分高级 AI 研究人员仍对美国研究机构趋之若鹜,但在中国研究机构中,这些研究人员中所占比例远远高于顶级研究人员。

  3. 大多数在中国国籍的高级研究人员就读于美国的高校,其中大多数毕业后在美国工作。

  将近 60% 的中国国籍的高级研究人员在美国读研究生,35% 在中国读研究生,而7% 在其他国家(澳大利亚和英国)就读。

  在毕业于美国院校的中国国籍的作者中,绝大多数(78%)目前在美国研究机构工作,仅有 21% 在中国研究机构工作。

  结论

  这些趋势—尤其是中国国籍的研究人员学习和工作的地方–也受到政策变化和中美科技生态系统之间整体形势的影响较大。

  中国科技行业经过长达十年的崛起,已经大幅改变了许多在硅谷工作的中国籍技术人员的想法,他们中的许多人已经回国,到创业企业或中国科技巨头公司工作。

  美国近期对研究生签证的限制经常会造成对在美国的中国国籍科学家遭到不公正的起诉,并且宣扬所有中国学生都是间谍的政治言论,这已经开始影响中国国籍 AI 科研人员的流动和滞留。有鉴于此,中国国籍并受过美国教育的研究人员将在何处工作的数据可能是一个滞后指标,在未来几年可能会发生实质性变化。

  这些影响是积极的(保护美国在顶级研究中的相对优势)还是消极的(削弱美国吸引和留住人才的独有能力),仍是一个不得而知的问题。这也是在本系列的后续文章中,我们将对这一问题构建新的数据集并继续进行研究。

  注释和研究方法

  1. NeurIPS 是最重要的 AI 会议之一——特别是在目前最热门的深度学习领域——但它仍然只是会议之一,在衡量各国 AI 科研人员方面必然有所欠缺的。因此,需要根据论文引用数量、其他会议、机器学习竞赛等对 AI 科研人员进行更全面的考量,以便更全面地了解 AI 科研人员。我们打算在今后的分析实践中增加替代措施。

  2. 基于对在 2018 年 NeurIPS 发表演讲的 113 名作者进行的调查,得出了排名1% 的最顶级人才的数据。排名前 20% 的人才是根据对有中国姓氏的1,087 作者中的 69 人进行随机抽样的估算(置信区间为+/-7.8%,置信水平为 0.95)。然后,我们对这个样本中的每一位作者进行了研究,以找到他们的原籍国、研究生院所在地和目前的工作隶属关系。

  3. 为了给每位作者匹配原籍国,我们使用了他们的本科院校所在地作为首选替代值。对于受过高中教育的作者,我们根据他们高中的所在地认定其原籍国。

  但这种替代法并不完美:对于在美国完成本科学业的中国国籍的研究人员,如果找不到关于他们高中所在地的信息,就会被视为美国国籍。这可能会导致中国作者的比例略微偏低。但由于缺乏本科教育的信息,某些拥有中国姓氏并在中国研究机构工作的作家被排除在外,因此这一偏差可能会被部分抵消。

  4. 在为跨国研究机构指定隶属关系时,我们使用了公司或大学的总部所在地。例如,在北京为微软亚洲研究院工作的中国国籍的研究员将被视为隶属于一家美国研究机构,因为微软的总部在美国。总部设在香港的研究机构被视为中国机构。

  5. 对于在美国读研究生并留在美国研究机构的中国研究人员的估算基于一个更少的作者样本。他们具有如下特点:中国国籍,在美国就读研究生, 目前在与研究生院不同的地方工作。在样本中符合这些特征的 14 名作者中,目前有 11 人在美国研究机构工作,3 人在中国研究机构工作。因此, 基于这些样本的推断的置信度较低(置信区间为+/-22%,置信度水平为 0.95)。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注