大家好 我叫王洋 来自百度很高兴来大家复抗和大家交流一下安全行业的新趋势今天我给大家介绍的是我们关于AI换联检测方面的工作首先我给大家介绍一下AI换联是怎么制作的以及他们背后的技术然后给大家介绍两种AI换联检测的方法对图片或视频进行换联这种方法早已有知之前我们一般通过photoshop等这些图像编辑软件进行手工操作这个对操作者有一定的技能要求这个过程费时费力我们现在出现了deepfake这个是在2017年底出现的技术它可以对视频每一帧进行自动的换联效率大大提高了只要操作者有一个GPU的机器他们自己就可以训练模型自己就可以进行制作不仅仅操作门槛大大降低而且所制作的视频也能达到以假乱真的效果请播发生下视频这些视频来自YouTube左边是真脸右边是假脸大家看是不是做得很逼真用AI进行视频换联这个技术有很广阔的应用前景比如说美国一个博物馆在银屏上复活了艺术大师达理对于电视台比如说北京电视台它可以在节目中让不适合出现的主持人消失那deepfake这项技术呢就是让一个视频中让某些人出现或者说让某些人消失既然人一眼很多情况下很难识别出假脸那么人脸识别模型是不是可以呢大家看到的是微软的人脸识别服务左边是真脸尼古拉斯凯齐右边是星球大战的一个人物他被换成了凯齐的脸他们这张脸的人脸对比相似度有86这是第二张第二组图片被换脸的是美国总统相似度70.5%这个对于微软的人脸识别服务他们会判定这两个人是一个人这是亚马逊的人脸识别服务对于亚马逊的人脸识别第一组图片的相似度能达到95%第二组图片相似度能达到87%既然机器和肉眼既然人脸识别服务和人肉眼都无法分辨那么我们是如何来进行AI换脸检测的呢首先我先给大家介绍一下Deepfake AI换脸是怎么样坏脸视频是怎么样制作的它首先是将视频的每一帧出去每一帧然后对找到目标人脸对人脸进行换脸然后再放回到人脸原来的位置它所伪造的人脸是人脸的中心区域而不是整个的图像所以这个过程不是端对端的就不是说为给模型原图生成出是原图不是这样的Deepfake模型是基于自动编码器它有两组自动编码器每组都含有一个编码器和一个解码器自动编码器会将图片进行降维表示解码器会对图片进行解码恢复到原图在训练过程中需要保持输入的图片和输出的图片差异尽量小这两组编码器分别对两个人进行编码和解码这两组自动编码器是共享权重的实际上它们是属于一个编码器在训练过程中我们需要两个人的许多张图片分别训练这两组编码器这样在转换的时候A人脸通过编码可以在通过B的编码器还原成B人脸同样的B人脸也可以被解码成A的人脸在转换的过程中首先我们要借助人脸检测先使用人脸检测系统找到对齐的人脸输入到编码器然后通过另一组解码器得到伪造的人脸再放回原图然后进行融合我们看到这个女孩的人脸被凯齐的人脸所替换她们俩的表情是一样的我们介绍第一种方法第一种方法是基于卷机神经网络通过卷机神经网络是目前进行图片分类的一种主流的方式我们使用了一种浅层的CNN我们试图让她抓住比较低层次的图像特征我们刚才看到的人脸视频从目前来讲DeepFake它目前所产生的假脸有时候会产生一些容易被发现的痕迹比如说边缘声音在视频中人脸会有抖动还有颜色模糊还有人脸扭曲颜色不均等情况发生我们第一种方法输入模型的就包含了这种融合边缘的信息它首先利用人脸检测器来找到人脸的核心区域然后进行外言这样就包含了融合边缘的信息我们的数据级是开源的从视频中提取了6万多张假脸图片和6万多张真脸图片这些图片有高质量的图片也有低质量的图片用人脸检测找到人脸的核心区域之后在外言0.5倍实际上就是1.5倍的人脸矿图在训练的时候我们还进行了数据增强将它进行缩放等等这些操作这是我们使用的模型大家可以看到只有三个整体层使用的是RELU计划函数虽然简单但是很有效准确率能达到99%我们这种方法它的假扬率很低就是说真脸很少会被识别成假脸这是一个很好的特性接下来我给大家介绍一下我们的第二种方法基于人脸识别模型的刚才我们提到了人脸识别模型实际上是很难区别真脸和假脸的但是第二种方法我们使用了人脸识别模型那我们是怎么样做的呢首先我介绍一下FistNetFistNet是开源的目前是最流行的人脸识别框架之一它是一个典型的深度CNNFistNet会对输入的人脸进行一个硬射会把输入图片硬射为512维的向量在进行两张人脸的比对的时候实际上是计算这两个人脸对应向量的距离比如说O时距离数值越少认为这两张脸越相似我们这个方法使用的数据级和刚才介绍的方法类似区别在于我们这个方法使用的图片仅仅是人脸的核心区域我们通过FistNet提取的向量作为我们训练模型的特征我们用SVM作为我们的二分类器在这里FistNet实际上是作为一个特征提取器来发挥它的作用我们这个方法的准确率能达到94%这个方法实际上使用的是更高层次的特征更抽象的人脸特征接下来给大家展示我们第一种方法它的演示效果请播放视频这个是基于简单CNN的方法准确率有99%这个是第二种方法它检测的效果展示请播放视频第二种方法的准确率有94%最后总结一下我们介绍了两种检测换脸视频的方法换脸视频有很多针实际上我们只要对某一些针确认它为假脸我们就可以判定它这个视频是伪造的目前伪造视频目前伪造视频有很严重的安全威胁举一个例子现在用DeepFake技术来制作假新闻用于肥磅造谣这些勾当还有人利用DeepFake来制作勒索敲诈这类的视频所以我们需要一个技术来检测这类安全威胁我们所介绍的第一种方法是基于CNN是一个简单的CNN网络虽然简单但是它能工作得很好我们这种网络提取的更多的是第一层次的特征基于人脸识别模型的检测方法它更多的是使用高层次的更抽象的人脸的特征在第一我们发现在第一种方法所错误分类的图片中我们在使用第二种方法就是基于人脸识别模型进行检测的话准确率还能达到64%这说明这两种方法使用的特征是不一样的谢谢大家我的演讲讲完了