文/硅谷洞察
来源:硅谷洞察(ID:guigudiyixian)
在 2 月 28 号刚于旧金山结束的 RSA 大会上,一家名为 Pindrop 的专门检测语音诈骗的初创公司再次向业内发出警告:网络诈骗份子已经开始借助 AI 软件克隆声音进行诈骗了!
(Pindrop 的 CEO(右)和 CTO (左),图片来自网络)
Pindrop 的 CEO Vijay Balasubramaniyan 表示:“Pindrop 在过去一年中调查了大约十二起类似的案件,都是欺诈者使用 AI 软件“克隆”某人的声音以进行诈骗。同时,我们还看到了 Deepfake 音频作为针对公众人物的工具出现。如果你是家公司的 CEO 或者你在 YouTube 上有很多视频,骗子就极有可能用它来合成你的声音。”
并且,虽然 Pindrop 只看到了少数这样的案件,但涉案金额很高。Pindrop 估算涉及的诈骗金额可能高达 1700 万美元。
来自硅谷的警告消息又一次将 AI 的安全性问题带到了舆论的风口浪尖。毫无疑问,自从 AI 成为全球技术发展的主流以来,DeepFake 的问题就一直是人们关心的重点。在之前的文章中,小探深度讨论了关于人脸识别的安全问题。而今天我们要讨论的 AI 语音合成的问题,则可能比人脸识别更加危险。
AI 声音合成,一面“天使”一面“魔鬼”
语音合成技术现在已经非常成熟了。例如高德导航里的各种明星语音包,“林志玲为您导航祝您好心情”、“郭德纲前方有落石车碎人心碎”、“你镇定一下罗永浩要开始导航了”,基本上能够达到以假乱真的效果。大部分时候用户也分不出来到底是明星自己录的,还是合成的语音。当然这种场景中,语音合成只是为了提升用户体验做的一个小功能。不仅没有对用户造成损失,反而让用户开车的时候拥有更好的体验。
但是下面这个故事就不是这样了。2018 年 Charlie Warzel,Buzzfeed 的科技记者,受了前密西根大学社交媒体责任中心 CTO Aviv Ovadya 言论的影响,做了一件想想都非常后怕的事情。他使用 AI 合成软件模仿了自己的声音,然后打电话给他妈妈,结果他妈妈愣是没听出来。世界上最熟悉你自己声音的人是谁?可能不是你自己,因为你自己听到的声音和别人听到的是有区别的。最熟悉你声音肯定是你的母亲。
既然身边最熟悉的人都被这样“伪装”骗了,那只要使用这种软件不就拥有了“变身”的超能力了吗?
事实上,利用 AI 语音合成冒充熟人进行电信诈骗的案例这几年时常发生,并且涉及金额都非常的巨大。
根据报道,英国某能源公司高管在一个小时之内通过匈牙利供应商向一诈骗犯转账 24 万美元,约 175 万元人民币,仅仅是因为诈骗犯通过 AI 技术仿造了其母公司 CEO 的声音。该高管表示,在整个通话过程中,老板轻微的德国口音都展现得淋漓尽致,该高管完全没有任何的怀疑,直到被要求再次转账时才发觉了事件异常。
在报案调查后,警方只能发现该笔转账流动到了墨西哥等地区,但是具体嫌疑犯的身份始终无法确定。这个案件带来的损失目前只能由保险公司承担。这位受害者后来在一封电子邮件中写道,虽然“老板”的要求相当奇怪,但声音如此逼真,他觉得自己别无选择,只能服从。
美国网络安全公司 Symantec 的研究人员表示,他们发现至少有三起公司高管的声音被人模仿以用于电信诈骗。虽然 Symantec 拒绝透露这些受害公司的名称,也不愿透露上述英国能源公司是否是其中之一,但它指出,其中一起案件的损失总计达数百万美元。
虽然有种种风险,但技术的发展一点也没有慢下来。目前,许多硅谷巨头和人工智能初创企业都在开发这种语音合成软件,用以模仿人的声音节奏和语调,并被用来制作令人信服的演讲。
几个月前,Resemble 团队发布了一个名为 Resemblyzer 的开源工具,该工具使用人工智能和机器学习来通过获取语音样本的高级表示并预测它们是真实的还是生成的来检测深度伪造。而在 AI 语音合成届早已成名已久的 Lyrebird,其开发出的 AI 合成软件更是可以在合成语音中模拟出说话人的感情。
AI 技术被滥用,它的工作原理是什么?
无数的研究表明,重现人们讲话的韵律只需要一个小的数据集。像 Resemble 和 Lyrebird 这样的商业系统仅需要几分钟的音频样本,而百度最新的 Deep Voice 实现等复杂的模型可以从 3.7 秒的样本中复制语音。
斯坦福大学网络政策中心研究员、曾任奥巴马和特朗普政府时期白宫网络安全政策高级主管的 Andrew Grotto(安德鲁·格罗托)表示:“罪犯将使用任何能让他们以最低成本实现目标的工具。也许这是一项在 10 年前听起来很新奇的技术,但是现在任何有想法的非专业罪犯都可以使用。”
目前市面上的 AI 语音合成软件的工作原理是将一个人的声音分解成不同的组成部分,比如音轨或音节,然后将这些组成部分重新排列,形成具有相似语音模式、音调和音色的新语音。除了借助这种新技术,骗子们还依赖于最常见的诈骗技巧来提高他们的效率,利用时间压力,比如临近的截止日期,或者社会压力,比如安抚老板的愿望,来让受害人打消任何疑虑。在某些情况下,犯罪分子会瞄准公司会计或财务的负责人,因为他们知道这些人有能力立即汇款。
(Pindrop 的 CEO 演示如何合成公众人物的视频截图)
除了进行诈骗,DeepFake 音频还存在向公众传递负面信息的风险。RSA 大会演讲现场,Pindrop 的 CEO 向公众演示了一款合成公众人物声音的 AI 系统,这项技术通过在网上搜索特朗普之前的录音来模仿他的声音,耗时不到一分钟,并用美国总统特朗普的声音说了一些笑话。如果这项技术被用于仿造领导人物的声音,并用到犯罪事件中,无疑可能非常危险,甚至给国家安全带来危害。
AI 声音合成如此猖獗,应该如何防范?
虽然风险重重,但语音模拟技术的发展势不可挡。例如,Google 已经为自动识别 DeepFake 语音的研究项目提供了资金和资源的帮助。但 Google 也开发了一些世界上最具说服力的语音人工智能,包括它的 Duplex 服务,它可以用电脑生成的栩栩如生的声音,打电话给餐厅预定座位。
卡内基国际和平基金会(Carnegie Endowment for International Peace)硅谷办公室主任 Charlotte Stanton 则提醒业界:“在商业领域,人们有很强的的意愿想要制造出好的技术产品,但一定要平衡,避免它被用于非法途径。所以,研究人员在研发像 AI 语音合成技术这样强大的技术时需要更加谨慎,很明显,AI 语音合成已经到了可以被滥用的地步。”
幸运的是,人工智能开发人员正在努力构建能够检测和打击 Deepfake 音频的解决方案。例如,Pindrop 公司已经开发出一种人工智能算法,可以从 DeepFake 的音轨中辨别真实的语言。它是通过检查说话时单词的实际发音,以及这些发音是否与真实人类的说话模式相匹配,因为人类的声音无法像机器伪装那样标准和快速。
Pindrop 还预测到,也许有一天音频安全服务会像数据安全服务一样有巨大的市场。该公司 CEO 表示:“会有一些公司建立检测这些安全漏洞的机制。如果网上出现了伪造的音频,那么这个机制就会开始保护你的声音数据。”
(Pindrop CEO Vijay Balasubramaniyan,图片来自网络)
除了 Pindrop 等小公司。硅谷科技巨头也积极的致力于寻找检测 Deepfake 音频的方案。例如,谷歌在去年年初与 GNI 合作,发布了一系列合成语音,其中包含由其深入学习的文本到语音(TTS)模型所说的数千个短语,来自英文报纸文章 68 种不同的合成语音,并涵盖了各种区域口音。该数据库提供给了 2019 ASVspoof 挑战的参与者使用,该竞赛旨在开发针对假语音的对策,特别是可以创建区分真实和计算机生成的语音的系统。
同时,DeepFake 音频的潜在威胁也可能会改变用户的行为,使用户在向互联网上传声音时更加谨慎。Pindrop 调查的诈骗案例中就有这样一位受害者,他几乎没有在任何社交平台上公开过自己的声音,仅仅是因为召集员工开会时的讲话被窃取,就成为了犯罪分子的目标。这样的案例不禁会让人联想:“既然这么谨慎的人都会存在被诈骗的风险,那么我们干脆就不要在公众平台上表露自己的任何生理特征,包括声音和长相。这实在太恐怖了!”
不敢想象,如果我们的公众社交平台上面看不到任何超出文字以外的更生动的表达,那么几十年来的科技和信息发展不就白费了吗?这无疑是对多年来为人类科技文明进化做出贡献的科技工作者的侮辱。
小探相信,随着 AI 不断的发展,我们所面对的 DeepFake 威胁将会越来越多。因此,无论是视频或音频,建立一个完善的安全审核机制是非常有必要的!
关于预防 DeepFake 的安全机制,你还有什么想法吗?欢迎来评论区留言哦!
参考链接:
https://www.pcmag.com/news/is-ai-enabled-voice-cloning-the-next-big-security-scam
https://9to5google.com/2019/01/31/google-deep-fake-audio-detection/
https://www.washingtonpost.com/technology/2019/09/04/an-artificial-intelligence-first-voice-mimicking-software-reportedly-used-major-theft/