新智元报道
来源:microsoft.com
编辑:肖琴
【新智元导读】微软全球技术院士、首席语音科学家黄学东近日做客微软播客节目,聊了聊在语音和语言技术取得的几个里程碑式的突破,解释了掌握语音识别、翻译和对话将如何让机器从 “感知 AI” 进化到 “认知 AI”,更接近真正的人类智能。
“语音和语言技术是真正镶在人工智能皇冠上的明珠。”
已经在语音和语言技术领域耕耘了 30 年,取得多个突破性进展的微软全球技术院士 (Technical Fellow)、首席语音科学家黄学东先生如此说道。
近日,黄学东做客微软播客节目,聊了聊他和团队在语音和语言技术取得的几个里程碑式的突破。
黄学东解释了掌握语音识别、翻译和对话将如何让机器从 “感知 AI” 进化到 “认知 AI”,更接近真正的人类智能。
此外,黄学东也谈到他如何走上语音研究之路,以及他在清华大学和在微软的人生历程。
语音和语言将推动人工智能的进化
主持人:黄学东先生,欢迎来到微软播客。
黄学东:谢谢。
主持人:您是微软语音和语言组的 Technical Fellow,负责领导微软的语音工作。我们将在稍后深入讨论这些,但首先,作为公司的首席语音科学家,请概括地告诉我们你的工作内容是什么,以及为什么要做这些。你早上起来的动力是什么?
黄学东:我们所做的就是确保我们拥有最好的语音和语言技术,可以用于各种各样的场景。我们有一整个团队在做这件事情,因为对话不仅是人们最自然的交流方式,而且这是 AI 最大的挑战。我们尝试真正地推动这个领域的突破,在我们的云服务 Azure Services 上提供出色的服务,并确保我们能够让微软内部和微软之外的客户满意。如果你想厘清整个事情,主要有三个方面。
首先,我们有能力去真正提高语音识别的准确性,去驱动语音合成的自然性,以及确保机器翻译的准确性,例如从英语翻译成汉语或法语或德语。因此,这背后有很多科学,要确保准确性,自然度,延迟时间,这些技术都是世界级的。这是一方面。
第二方面是,我们不仅提供技术,我们还通过 Azure 提供服务。从 Office 到 Windows, Cortana,它们都依赖于相同的云服务。我们也有边缘设备,比如我们的语音设备 SDK。我们想要确保在边缘和云端的语音技术都是以现代的方式提供的,即云平台和嵌入式平台。这是第二方面:平台是现代化的。
第三个方面,是向客户表达我们的爱。因为我们在世界各地都有广泛的客户,我们想让消费者满意,并确保使用我们的语音翻译的客户体验是一流的。
主持人:是的。
黄学东:这就是我实际上在做的三件关键事情:提升 AI 能力,使我们在云端和边缘设备的平台实现现代化,以及爱我们的客户。
主持人:嗯,所以你们有很多团队在这些小组中工作,来解决这些核心问题。
黄学东:是的。我们在世界各地都有团队。并且,这些团队的多样性是很惊人的,因为我们正在努力解决的是语言障碍。因此,我们在中国有团队,在德国、以色列、印度和美国都有团队。我们的工作是全球范围的,尝试努力去解决这些语言挑战。
主持人:首先,我想引用你的话为我们今天的谈话做铺垫。你说:“语音和语言是人工智能皇冠上的明珠。” 请为我们解释一下吧。
黄学东:嗯。我们可以从人类进化的范畴来思考。在某个时期,语言诞生了。这加速了人类的进化。你可以想想这个星球上所有的动物,你知道的,有些动物跑得比人类快,有些动物视力比人类好……
主持人:有些动物的牙齿也更锋利。
黄学东:…… 尤其是在夜里。
主持人:动物更强大。
黄学东:是的。事实上,动物的听觉和嗅觉都比人类更好,但只有我们人类才拥有语言。有了语言,我们能够更好地组织,能够用科幻的术语去描述,能够自我组织,能够编写宪法。所以,是语音和语言使我们有别于其他动物。对人工智能来说,语音和语言将推动人工智能的进化,就像它推动了人类的进化一样。这就是为什么说它是镶在人工智能皇冠上的明珠。
主持人:原来如此。
黄学东:而且它还很坚硬,难以破坏。
主持人:是的。关于这个话题有一个哲学讨论,但它引出了一些有趣的问题。假如你在机器语言方面取得了很大的成功,那么,这些机器是什么?
黄学东:让我们发挥一点想象力……
比如说,我们假设计算机可以理解 300 种语言,能够流利地交流和对话。但我还从没遇到过一个会说 300 种语言的人。机器不仅能够用 300 种语言流畅地交流和对话,还能够领会、理解、学习和推理,真正完成所有学科的博士课程。这种知识的获取、推理,是任何人的个人能力所不能及的。当那一刻到来的时候,你可以想象 AI 将会有多么聪明。
主持人:这是你想象出来的吗?
黄学东:是的。我认为这个世界会变得更美好。就在几周前,我去了日本,我手机上安装了微软翻译软件。我能真正地与不会说中文或英文的日本人交流了。这已经实现了。微软翻译可以说我不会讲的语言,帮助我在日本时更有效率。
主持人:我完全同意。但想到这个机器,我就有点害怕。
黄学东:但是你要知道,智能有两个层次。第一个层次是真正的感知智能 (perceptive intelligence)。就是看、听、闻的能力。更高层次的是认知智能 (cognitive intelligence)。就是推理、学习和获得知识的能力。我们今天所取得的 AI 的突破,大多是在感知层面的,如语音识别、语音合成、计算机视觉等。但是高层次的推理和知识获取,即认知能力,AI 离人类的水平还很远。
主持人:是的。
黄学东:我对翻译感到兴奋,因为它实际上是介于感知智能和认知智能之间的。我们能够真正地在感知智能上取得成功,并扩展到认知智能。这是一个相当漫长的过程。
主持人:是的。
黄学东:我不知道我们什么时候才能达到那个里程碑。但那一天会到来。这只是时间问题。可能需要 50 年的时间,但我认为这是会发生的。
微软语音技术研究之路
主持人:我们会在下回的播客中讨论这个里程碑,因为今天已经有好几个里程碑要讨论。但首先,我想回顾一下历史。你已经在微软研究院工作了很长时间了,在 Rick Rashid 成立微软研究院的时候,语音组是第一批研究组织。根据 MSR 的传说,这个组织的目标是 “让语音成为主流”。请给我们简单介绍一下微软研究院的语音历史。这项研究是如何从早期的 “不主流”、“敢于冒险,但离成功还很远” 发展到今天几乎应用在微软所有产品中?
黄学东:在加入微软研究院之前,我在匹兹堡的 CMU 任教。Rick Rashid 当时是 CMU 的教授。我当时是初级教员。所以,我当时主要是在 CMU 做关于语音的研究。微软伸出了橄榄枝,他们想成立一个语音组。所以,实际上,我在 1993 年元旦假期后的第一天就搬了家,从匹兹堡飞往西雅图,开始了在微软的旅程,并从未改变。这就是微软语音的开端。我们是一个研究团队,致力于为开发者带来语音技术。
主持人:所以,不是没有实用价值的研究……
黄学东:不是的。因此,我们从 CMU 获得了技术许可。我们就是这样起步的。我们非常感谢 CMU 在这一领域的开创性研究。虽然是研究团队,但我们发布了第一个语音 API,叫 SAPI,用在 Windows 95 上。作为一个研究团队,我们对此感到非常自豪,因为通常研究团队只是做基础研究。我们不仅做了基础研究,还继续挑战极限,继续提高识别精度,我们还与 Windows 合作,把这项技术带给了 Windows 开发者。SAPI 是业界第一个基于 Windows 的语音 API。
主持人:哇。
黄学东:那真是一段很长的经历。后来,我最终离开了研究部门,加入了产品部门。跟我一起转入产品部门的是一个优秀的微软语音研究组。这是我在微软 27 年的经历。我在 2004 年之后就不再做语音了,在我们发布了语音服务器之后,我开始做了很多不同的事情,包括孵化研究。
在萨蒂亚・纳德拉 (Satya Nadella) 负责 Bing 的时候,我还做过 Bing 的架构师。然后,在 Harry 负责研究和技术团队时,我帮助孵化了一系列人工智能项目,包括 GPU 集群、Project Philly、深度学习工具包 CNTK 等基础项目。当然,还有语音研究,还包括其他高端解决方案。
大约三年前,我有幸回来负责语音和语言组。我们基本上整合了所有在语音和翻译方面的资源,这就是我的经历。精彩的 27 年。
主持人:语音和语言组在属于哪个部门?
黄学东:正如我说的,我们在研究部门和产品部门之间来回了很多次。现在,我们属于云和人工智能部门。这是一个产品团队。我们是云服务的一部分,向全公司和全行业提供语音和翻译服务。我们也有语音和对话研究。他们更像一个研究团队。
主持人:是的。
黄学东:那个组里全是研究人员。正如 Rick 说的,技术成果转化是一项需要各部门配合的事情。我们不仅是各部门紧密配合,我们已经成了一个整体。这是一个非常令人兴奋的团队,有一群非常有才华、非常有创新精神的人。
主持人:所以,在研究模式上还是很有前瞻性的……
黄学东:不仅是有前瞻性,而且是有充分依据的。我们必须脚踏实地提供服务,也要站到未来的高度,去定义人们需要的和人们想要的解决方案是什么,即使现在这个解决方案尚不存在。
三个里程碑:语音识别、机器翻译和对话问答
主持人:让我们来谈谈你参与的一些研究里程碑。它们真的很有趣。你参与了三个领域:对话式语音识别、机器翻译和对话问答。让我们从语音识别开始。2016 年,你带领的团队在转写对话语音方面达到了人类水平的历史记录。请说说这是什么怎么一回事,是怎样做到的?
黄学东:在 2016 年,我们在广泛使用的 Switchboard Conversational Transcription 任务上达到了媲美人类的水平。这项任务在研究界和工业界可能已经有十多年了。2017 年,我们重新刷新了这个里程碑,不是和一个人比较,而是和一群人比较,转写同样的任务。所以,我认为 2017 年是一个历史性的时刻。转写相同任务,微软语音堆栈的表现优于所有四个团队的总和。最初我向我们的研究小组提出挑战时,没有人认为能做到。但令人惊讶的是,当我们有了信念,有了资源,有了专注的焦点,奇迹真的发生了,只花了不到两年的时间。所以,对于团队,对于科学,对于技术来说,那确实是一个美妙的时刻。那是我个人职业生涯中实现的第一个达到与媲美人类水平的里程碑。
主持人:所以,我想深入探讨一下这个问题,因为你所说的这些非常有趣:在两年的时间里,没有人认为这件事能够做到,然后你们做到了。请告诉我们更多关于你们是如何实现这一点的技术层面的事情。
黄学东:如果你回顾一下语音研究的历史,你就会发现,很多后人反复使用的突破性成果都是语音团队开创的。让我们以翻译为例。在 70 年代早期,即使是语音识别,使用的也是更传统的人工智能,比如基于规则的方法,专家系统。IBM Watson 的研究团队率先使用隐马尔可夫模型,使用统计语言模型,进行统计语音识别。事实证明他们突破了极限,极大地推进了这个领域的发展。因此,那是语音领域的一个高光时刻。
同样是这批 IBM 语音的研究人员,他们借鉴了语音识别的方法,并将其应用到翻译中。他们改写了机器翻译史,大大提高了翻译的质量。在隐马尔可夫模型之后,深度学习开始被用于语音识别,即神经语音识别。再一次,翻译借鉴过来,出现了神经机器翻译,而且还很先进。所以,你可以看到,语音技术总是被其他领域借鉴的。实际上,语音领域的研究者一直在做系统的基准测试,这是一种非常严格的评估,改变了科学和工程的评估方式。
主持人:是的。
黄学东:所以,语音技术社区有很多经验可以借鉴,这些经验本可以在语音之外得到广泛的应用。所以,我们借鉴了这些经验,去处理更艰巨的任务。这样看来,我们同一个团队实现了这些不同任务的历史性里程碑也就不足为奇了。
主持人:那么,让我们来谈谈另一个里程碑:在 WMT-2017 的中英新闻机器翻译任务中,实现了媲美人类的水平。这是如何做到的?让我们回到我们最初的问题 —— 你是否认为现在机器已经可以媲美传统的人工翻译服务?以及为什么这项工作是一个重要的突破?
黄学东:所以,我们团队实现的第二个里程碑式突破同样令人兴奋。正如我刚才说的,转写 Switchboard 对话是低水平的任务,处于感知 AI 层面。翻译是介于感知 AI 和认知 AI 之间的一项任务。当然,翻译是一项更艰巨的任务,没有人相信我们能做到这一点。所以,我们设定了一个目标:在五年内,看看我们能否在句子层面实现媲美人类的翻译水平。我们人类翻译时,观察的是整个段落,我们会有更广的背景知识,所以我们能做得更好。所以,我们限制在广泛使用的 WMT 数据集,这是一个逐句翻译新闻句子的任务……
黄学东:这是一个开放的研究,有公开的基准。但即使有这些限制,我们也认为可能要花五年的时间。因此,我们将语音识别研究中获得的成功作为基础。但这一次,我们实际上走得更远。我们与微软亚洲研究院的同事合作,因为这是一个中文到英文翻译的任务。令人惊讶的是,这群人让所有人都大吃一惊。我们在不到一年的时间里完成了这个任务,新闻句子中英翻译达到了人类的对等水平,同一任务上机器的翻译比专业人员更好,这是一个历史性的突破。我为这个团队感到骄傲,也为这次合作感到非常自豪。
主持人:另外一个非常有趣的领域是 COQA,对话问答。请给我们讲讲这项语音识别技术中最人性化,也许也是最困难的工作。
黄学东:这项任务是由斯坦福大学的研究人员首创的。它离认知 AI 更近了一步。这实际上是机器阅读理解任务。就是你读了一段话。然后我们用一系列相关的问题来挑战正确的回答。例如,假如你读到关于比尔・盖茨的一段话,第一个问题可能是,“谁是微软的创始人?” 第二个问题可能与第一个问题有关,“这个人开始创建微软时多大?” 或者,“这个人退休时多大?” 所以,上下文关联比简单的机器阅读理解要难,因为必须在给定的上下文背景下回答一系列相关的问题。
所以,对于这一最新的突破,我必须要归功于我们 base 在北京的研究实验室的同事们,我们一直在利用共享的资源和基础设施共同开展这项工作。结果很惊人。在这项对话问答挑战中,我们不管是准确性还是速度都让人印象深刻。再一次,我们在这个广泛关注的 AI 任务上实现了媲美人类的水平。没有人相信可以在如此短的时间内实现这种对话问答的人类同等水平,我们最初认为可能需要两年的时间。我们再一次打破了历史记录。
主持人:嗯,我们已经讨论了一些技术方面的问题。那么,在最后一个问题上,你们是否有其他方法或技术能解决这个问答任务呢?
黄学东:微软在 AI 方面已经积累了 30 年的研究和经验。北京的自然语言小组,在过去的二十年里一直在做这个,他们汇聚了很多人才,积累了很多经验。我们基本上是使用深度学习和迁移学习。同时,我们的成功也构建在整个社区的基础上。
比如,谷歌开发了一项名为 BERT 的技术。我们在 BERT 的基础上取得了成功。
主持人:嗯嗯。
黄学东:所以,这其实是整个研究社区的想法。我刚刚谈到微软亚洲研究院和微软美国团队之间的合作。事实上,这是整个行业合作的一个很好的例子。
从清华到爱丁堡:让人类真正与机器交流的梦想从未消失
主持人:您在这期节目中向我们描述的事情非常令人兴奋 —— 如果你成功了,我们必须解决可能出现的问题。
黄学东:是的。
主持人:你想让电脑能够听、说、翻译、回答问题 —— 拥有与人交流交流的能力。有没有什么让你担心的?
黄学东:是的,当然。我担心的是,总有一天,人类会过于依赖 AI。AI 永远不可能完美。AI 总是会带有偏见。所以,我担心这种不易觉察的影响。
主持人:是的。
黄学东:这是一个我们必须意识到并且必须解决的广泛的社会问题。因为就像任何人一样,如果你有一个你所依赖的助手,你会知道那个助手可以影响你,改变你的计划,改变你的观点。总有一天,AI 也会扮演同样的角色。AI 会有偏见。如何处理这个问题是我最关心的。
主持人:是的。
黄学东:如果一切顺利的话。这确实是我们必须处理的首要问题。不过目前我们不知道如何处理,因为我们还没有达到那个阶段。
主持人:那么,你在开发这种能说话、倾听和交流的工具时,有没有一种 “设计思维” 呢?
黄学东:我只能相信,现在研究 AI 的人都有足够的责任感。好消息是我们还没到达那一步,对吧?所以,我们有时间合作来解决这个问题,确保 AI 真正为人类服务,而不是毁灭人类。
主持人:是的。
黄学东:但是我短期的担忧是,AI 还不够好!至少现在还不够好!
正如比尔・盖茨曾经说过的,人们总是高估了短期内的能力,低估了长期的影响。对于 AI,我们不能低估它的长期影响。
主持人:最后,请说说你个人的故事吧。是什么让你对研究感兴趣,尤其是对语音和语言技术的研究感兴趣,以及你加入微软的经历是怎样的?
黄学东:好的。我毕业于清华大学。那时,我的第一台电脑是 Apple 2。你可能知道,那时电脑输入汉字是很麻烦的。因此,这让我想到了语音识别。当时,作为清华的研究生,我的梦想就是在 AI 领域做研究。
清华汇聚了一大批有远见的教授和教员,为我们的探索和实验创造了先进的环境。所以,我在清华完成了硕士学位,接着继续在清华读博。从 1982 年起我就开始做语音识别研究了,因为我是 1982 年被清华录取的。对我来说,让人类真正与机器交流的这个梦想从未消失。所以,我在这方面的研究已经超过 30 年了。即使在微软,有很短一段时间我不在做语音,但仍在做一些相关的事情。
所以,我打心眼里认为我与语音研究之间是一个非常美妙的故事,我个人也在这个过程中收获了许多有趣的经历。正如我刚才提到,在清华上学的时候,电脑输入中文还是一件很难的事情。我实际上没有在清华大学完成博士学位,而是在爱丁堡大学……
主持人:噢。
黄学东:在苏格兰。我在那里完成了博士学位。但当我第一次来到爱丁堡时,我个人感到非常痛苦 —— 我在中国学习英语,主要是美式英语。我的英语不是很好,因为那不是我的母语。但是听一位苏格兰教授说话的时候……
主持人:哦,天哪!
黄学东:…… 总之是很有挑战性。但我很感激 BBC 有隐藏式字幕。所以,我实际上是通过看 BBC 学会了苏格兰英语。
而且我不得不提的是,现在微软 PowerPoint 上已经有自动字幕技术了。从那段个人的痛苦经历,到 Office PowerPoint 团队在研发这款产品时考虑了这种功能,对我个人来说也非常受益。
主持人:是的。
黄学东:我很高兴看到我所研究的技术将帮助许多其他正在苏格兰上大学的人!
因为语言障碍一直存在。不是每个人都能说一口流利的英语。我接待了很多游客。几乎每年我都会接待清华大学的 MBA 学生,他们都学过英语,但他们的交谈和听力能力,就是不如英语国家的人。所以,我们能够在 ppt 演示上提供字幕这个简单的功能,实际上帮助了非常多的人……
主持人:是的。
黄学东:…… 为了更好地学习和理解。所以,这个功能的应用场景实际上非常广泛,甚至不需要翻译。只要有字幕,就能更好地沟通。
主持人:确实。我们之前谈到不同的语言,也谈到一些方言,但我们并没有探讨语言中的口音问题。即使是在美国,各个地方也会因为口音的不同而更加难以理解。
黄学东:这就是为什么我的苏格兰英语会变成一个好故事!我希望我还保留有一点苏格兰口音!
主持人:我听出来您的苏格兰口音了!在每期节目的最后,我都会请嘉宾最后说一句话。现在请您对我们的听众说任何你想说的话,他们可能对使计算机能够交谈和沟通感兴趣。如果他们想进入这个领域,应该从哪里入手呢?
黄学东:研究语音和语言!这是真正镶在人工智能皇冠上的明珠。在我看来,没有比这更有挑战性的了。尤其是如果你想要让感知 AI 进化到认知 AI,更是如此。这是一个基本的研究领域,让机器通过阅读、交谈来获得推理、理解、获取知识的能力,它可以改善每个人的生活,提高每个人的生产力,让这个世界变得更加美好,没有语言障碍,没有沟通障碍,没有理解障碍。
主持人:感谢您今天应邀参加我们的播客节目。您分享的东西非常棒。
黄学东:我的荣幸。
原文地址:
https://www.microsoft.com/en-us/research/blog/speech-and-language-the-crown-jewel-of-ai-with-dr-xuedong-huang/