文章来源:VentureBeat,arXiv
智东西4月20日消息,AI换脸并不新鲜,手机APP市场上有不少换脸的APP,此前也有互联网IP在明星脸上伪造色情电影,甚至在选举过程中在选民脸上制造虚假视频信息
为了避免滥用Deepfake带来的恶性结果,很多研究者打算利用AI技术开发鉴定分类器。
但是,谷歌公司和加州大学伯克利分校的研究人员最近的研究表明,以目前的鉴定技术水平,还不足以100%分辨出AI变脸的作品。 由加州大学圣地亚哥分校主导的另一项研究也得出了同样的结论。
这些研究结果给我们敲响警钟,要警惕AI变脸制造的虚假信息。
目前谷歌和加州大学伯克利分校的研究发表在学术网站arXiv上,论文标题为《用白盒、黑盒攻击绕过Deepfake图像鉴别工具(Evading Deepfake-Image Detectors with White- and Black-Box Attacks)》
论文链接: https://arxiv.org/pdf/2004.00622.pdf
实现3358www.Sina.com/ai人脸交换的技术称为Deepfake,原理是基于对抗网络(generative adversarial networks,GAN )的生成合成伪图像。 GAN由生成网络和判别网络构成。
GAN模型的学习过程是生成网络与判别网络的相互博弈的过程。 生成网随机合成一张图像,让判别网判断该图像的真伪,根据判别网的反馈不断提高“伪”能力,最终以假乱真。
研究人员测试了三个分类器,其中两个是第三方分类器,一个是研究人员训练的核对用分类器。
选择的第三方识别器分别采用两种不同的训练方式。
第一个分类器模型基于深度残差网络resnet-50(deepresidualnetwork )。
使用的ResNet-50预先在大型视觉数据库ImageNet中进行训练,然后为了判别真伪图像而进行训练。 采用包含720000个训练图像、4000个验证图像的训练集,其中一半是真实图像,另一半是由ProGAN生成的合成图像。 合成图像采用空间模糊和JEPG压缩方法增强。
经过训练后,该分类器可以准确识别ProGAN生成的图像,并对其他未被发现的图像进行分类。
第二种辨识分类器采用基于相似性学习(similar learning-based )的方法。 受过训练的这个鉴别器可以正确地识别由不同生成器合成的图像。
研究小组还独自建立了鉴定分类器模型,作为前述两个鉴定分类器的对照例。 该分类器使用100万个ProGAN生成的图像进行训练,其中真伪图像各占一半。 论文指出,该分类器的训练流水线比上述两种简单得多,因此错误率也较高。
研究人员根据分类器是否释放了访问权限,选择了不同的攻击方式。 对开发访问权限分类器采用白盒攻击; 对不开放访问权限的分类器采用黑匣子攻击。
另外,使用接收者操作特性曲线ROC曲线]评价了分类器的正确率。 评价基准为曲线下面积(AUC )的大小。 AUC的取值范围为0~1,一般AUC0.5表示分类器有预测价值,AUC值越大表示分类器的精度越高。
针对实验准备:训练3种分类器,设置对照组开放访问权限的分类器,研究人员通过白盒攻击评估了其稳健性。
白盒攻击是指攻击者知道分类器使用的算法和算法使用的参数。 在生成抗性攻击数据的过程中,攻击者可以与分类器系统进行交互。
用于攻击的所有图像都来自包含94036张图像的可视数据库。
在开始白盒攻击之前,基于该数据库的分类器的AUC值为0.97。 即使在运行常规清洗策略以隐藏图像合成痕迹后,分类器的AUC值仍将保持0.94或更高。
其次,研究人员使用了4种白盒攻击方法。 这四种攻击在前面的对抗性的例子中已经被研究。 攻击的具体方法是修改图像,使分类器误认为它们是真的。
4种攻击前后,分类器的ROC图表。 蓝色实线表示JPEG格式的合成图像,蓝色虚线表示PNG格式的合成图像
一是失真最小化攻击,即在合成图像中加入小的加法扰动。 假设某个合成图像x先被识别器判定为假,加上扰动后,(x )被判定为真。
结果表明,像素反转2%时,71.3%的伪图像被误判定为真; 像素反转4%时,89.7%的伪图像被误判定为真; 如果像素反转4 %到4~11%,则所有假图像都将被错误地确定为真。
a )分类器将假图像识别为真; )分类器将真实图像识别为假。 反转1%的像素后,一半的假图像被判定为真; 如果将像素反转7%,则一半的真实图像将被判定为假。
二是损失最大化攻击(Loss-Maximi )
zing Attack),即定义一个更简单的目标函数,更大限度地提升合成图像被判定为真的概率。
结果显示把未压缩图像的像素翻转40%,AUC值就会从0.966降到0.27。
第三种是通用对抗性补丁攻击(Universal Adversarial-Patch Attack)。失真最小化攻击方法有有一个局限性:攻击者需要花费0.1秒为每个图像定制攻击方式。为了弥补这一局限性,研究人员创建了一个单一的可视噪声模板补丁。这个补丁可以叠加在任何假图像上,有效增加了假图像的迷惑性。
叠加补丁后,分类器的AUC值从0.966降到0.085。
不同于之前三种方法通过对假图像施加扰动来影响分类结果,第四种攻击方法是通用潜空间攻击(Universal Latent-Space Attack),即对图像的潜在空间进行攻击。最终把分类器的AUC值从0.99降到0.17。
▲a为通用对抗性补丁攻击效果,b~d为通用潜空间攻击效果。图中所有假图像都被分类器误判为真
限制条件进行黑盒攻击,AUC值降至0.22以下
论文指出,现实中的社交网站、约会网站等,并不会公开其鉴定分类器的算法,因此很难进行前面所说的白盒攻击。
面对这种情况,研究人员进行了黑盒攻击。黑盒攻击假设对方知道攻击的存在,并且掌握了一般的防御策略。
研究结果显示,即使在这种限制性较强的黑盒攻击条件下,鉴定分类器也很容易受到对抗性因素影响。经过黑盒攻击,分类器的AUC数值下降到0.22以下。
结语:现有分类器有局限性,仍需深入研究
谷歌公司和加州大学伯克利分校研究团队证明,只要对虚假图片适当加以处理,就能使其“骗”过分类器。
这种现象令人担忧,论文中写道:“部署这样的分类器会比不部署还糟糕,不仅虚假图像本身显得十分真实,分类器的误判还会赋予它额外的可信度”。
因此,研究人员建议开创新的检测方法,研究出可以识别经过再压缩、调整大小、降低分辨率等扰动手段处理的假图像。
据悉,目前有许多机构正在从事这一工作,如脸书、亚马逊网络服务及其他机构联合发起了“Deepfake鉴别挑战”,期待能探索出更好的解决方案。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”