栗子、安妮发自凹非寺,量子位出品,公众号 QbitAI
触摸屏,也能出卖你的手机密码。
手机的内置麦克风,搭配 AI 算法,就能让输入的每一个字无处可逃。
你可能听不到,但手指每在屏幕上轻轻点一下,都会发出一个声波。离屏幕不到 1 厘米远的麦克风,轻轻松松就能记录下来。
剑桥大学的科学家们,开发了一只偷听触摸屏的 AI。它能从细微的声音中,还原出人类输入的信息。
45 名志愿者真人测试,数字、字母,都被 AI“偷”了出来。
声波出卖你
四顾无人时悄咪咪在触摸屏上解个锁,怎么就被声波泄露了密码呢?
“听到你的触摸”,这是论文的名字 (完整版:Hearing your touch: A new acoustic side channel on smartphones) 。在这里,研究人员揭秘了“作案思路”,其实并不难理解。
即使是在触摸屏上轻悄悄地操作,手指的每一次轻微的敲击都会产生声波。当戳击屏幕不同位置时,声波信息也会有相应的变化。
△ 触摸屏上按下“f”键时的声波震动形状
没错,关键信息就隐藏在这些形状不同的声波里。而这些信息,恰巧可以被手机内置的麦克风捕捉到。
研究人员反手开发了一个手机恶意应用程序,当这个程序被植入手机时,能够调动内置麦克风,让其秘密开始工作,记录下触摸时的声波信息。
△ 实验所用的恶意声波收集程序
他们收集了声波形状与触摸位置的对应信息,训练出了一个 AI 模型,还原输入内容。
至此,作案流程已经基本成型:
恶意程序悄悄启动→悄悄捕捉输入密码时的声波→AI 模型预测手指对应在屏幕的位置→还原输入的密码和信息。
AI 伙同麦克风,分工明确,里应外合,井然有序地就将你的隐私偷走了。
现场验证
这套程序的效果如何?研究人员找来了 45 位志愿者,开始了一系列测试。
整套测试的机型选用了 Google 旗下的 Nexus 5 手机以及 Nexus 9 平板。前者为 2013 年首发,屏幕大小为 4.95 英寸,后者为 2014 年发布,屏幕为 8.9 英寸。两款设备均内置 2 个麦克风。
△ 实验设备麦克风位置示意:左为 Nexus 5,右为 Nexus 9
为了模拟真实世界的环境,研究人员没有选择安静的实验室,而是选取了 3 种日常环境,测试在不同噪音环境下整个系统的准确度:
-
公共休息室:周围是聊天的人类,偶尔会出现煮咖啡时发出的较大噪音。
-
阅览室:电脑键盘声与小声说话声混合的环境。
-
图书馆:几乎没有说话声,但电脑键盘声环绕四周。
研究人员在这三个环境中,让 45 名志愿者分别进行了 4 组实验。
第一组志愿者需要随机输入数字1-9,每个数字各输入 10 次,第二组需要输入 200 组四位数字的密码,第三组随机输入字母,第四组需要输入 5 个字母组成的单词,这些单词均来自聊天语料库 NPS。
实验结果验证了这种攻击方法可行性。
在 20 次实验中,AI 能准确还原 150 个四位数字密码中的 91 个,还原准确率为 61%。
破解字母组成的暗号也不成问题。用 27 个单词密码测试时,只进行 10 次实验,模型在手机上破解了 7 个单词,在平板上成功还原出其中的 19 个。
就是这样,你毫无察觉,但密码不胫而走。
我有许多小 mimi,都在声波里
其实不用慌,因为 AI 想拿到手机密码,也不止这一种方法。
去年 9 月,英国兰卡斯特大学发表的研究,用手机扬声器里的声呐,窃取密码,特别是图形密码。
声呐的原理是,计算声波从发出到返回之间的时差,来确定物体的位置,以及物体有没有移动。这项研究里,AI 分析麦克风录下的回声,便可以追踪用户手指在智能手机屏幕上的移动轨迹了。
也是在你没有察觉的时候,一切就发生了。
当然,上面这些只是手机上的问题。
如今,从键盘到硬盘,哪一个听不到你的秘密?
(请注意,这是一句严肃的话,没有开车。)
就连家里的盆栽,可能也知道你说了什么。
所以,我们一个一个讲。
听一下键盘先
去年 12 月,就有个名叫Keytap的键盘窃听法术,简单有效,吸引了大片关注。
先用麦克风采集一下敲击各种按键的声波,比如每个键收集三次。
再搭个简单的预测模型,算出每个按键的平均波形:
把收集好的声波的峰值对齐,避免延时影响;再用相似度指标 (Similarity Metric) 精细地对齐波形;对齐之后,做个简单加权平均,就得到平均波形了。
最后,尽情敲键盘吧,只要和平均波形比对一下相似度,就能检测出是哪个按键了。
还有开源代码,大家可以直接玩耍。
硬盘偷听,麦克风也不用
这是密歇根大学和浙大学者脑洞的结晶。原原本本的机械硬盘,不加麦克风,不做任何硬件改动,就变成了窃听器,且音质不俗:
硬盘工作的时候,主轴高速运转带动盘片,上面的磁头会感应盘片上的磁场变化,通过改变磁场,来写入数据。
这个过程非常精细。只要受到外部的声波冲击,磁头就会发生偏移。硬盘的位置传感器,产生的电压信号里就会体现出这个偏移。
让 AI 去分析这细小的偏移,科学家们还原了人类说的话,又还原了高保真的音乐,Shazam 的听歌识曲也能答对歌名。
毕竟,硬盘的采样率超过 30,000 赫兹,几乎是 CD 级的录音质量。
薯片,不只是清脆
优雅的声音,可能是吃薯片最大的快感。
但偷听人类说话,科学家们不是靠薯片碎裂发出的声波,而是在视觉上动了心思。
MIT、微软和 Adobe 组成的混合团队,用高速相机透过隔音玻璃,拍摄出薯片袋的振动,算法便能判断说话的人是男是女,甚至还原讲话的内容。
研究人员说,声音传播时触碰到周围的物体,会在振动中形成一股微妙的视觉信号,肉眼不会发觉,但高速相机(每秒 2000~6000 帧)捕捉得到。AI 分析视觉信号,便能听出人类的谈话了。
而且,不止薯片袋,铝箔、水杯甚至植物盆栽,都可以用来偷听。这些物件在房间里出现,人类又丝毫不会觉得奇怪,真是得天独厚。
这项研究,中选了顶会 SIGGRAPH 2014。
如此说来,或许世间万物,都知道你的秘密。
不过还好,这些方法还在研究阶段。
传送门
这篇论文的研究人员共有四位,分别为剑桥大学的 Ilia Shumailov、Jeff Yan、Ross Anderson 及三星美国研究院 Laurent Simon。
论文 Hearing your touch: A new acoustic side channel on smartphones 地址:
https://arxiv.org/abs/1903.11137