Fork me on GitHub

解铃还须系铃人!南加大训练AI检测Deepfake“假视频”,准确率超90%

  大数据文摘出品
  来源:VICE
  编译:李馨瑜、Aileen,作者:文摘菌

  还记得权力的游戏第八季么? Jon Snow 也加入了千万骂编剧的粉丝的阵营,并且因此向粉丝道歉。

  这个视频当然是假的,他嘴巴的移动方式看起来就很奇怪。

  这是一个 DeepFake 生成的视频,一个用来娱乐或欺骗大众人工智能产物。

  之前文摘菌也报道过,这项技术的上线后就广受诟病,后来又有一个小团队开发出一款新的应用 DeepNude,可以一键实现脱衣,之后也因为反响恶劣而被迫下架。

  人们对于无法分辨真假的恐惧是合理的,毕竟这种技术的出现将会滋生出许多想象不到的新的犯罪手段的诞生。

  最近,南加州大学信息科学研究所计算机的研究人员发表一篇论文,研究通过训练 AI 寻找视频画面中的不一致性来检测 AI 生成的假视频,论文同时也被提交到 CVPR 2019。

  用 AI 对抗 AI,来看看如何实现

  对于伪造生成的假视频,研究人员发现,用于生成虚假视频的主流 AI 模型(以及其他方法,如 2016 年的 Face2Face 程序),都是通过逐帧修改视频且并不注意时间的连贯性。这会使得生成视频中的人物移动看起来非常笨拙,人们通常会注意到这类奇怪的动作。

  为了实现找出奇怪动作这一过程的自动化,研究人员首先要训练一个神经网络—这种人工智能程序以个人的海量视频为基础,可以用来“学习”人类在说话时如何移动的重要特征。

  然后,研究人员使用这些参数将伪造视频的堆叠帧输入 AI 模型,以检测视频随时间的不一致性。根据该论文,这种方法可以判断“AI 伪造视频”,准确率超过 90%。

  研究人员使用的模型是一个递归卷积模型(Recurrent convolutional model),这个深度学习模型能够很好的提取到视频中的信息。

  整个过程分为两步:

  1、将视频中的人脸进行裁剪对齐

  对于获取人脸区域,研究人员使用由 FaceForensics++ 提供的模型。

  论文链接:

  https://arxiv.org/abs/1901.08971

  研究人员尝试了两种人脸对齐技术的结合:

  • 显式使用面部坐标对齐,在参考坐标系中,人的面部是先天决定的,所有的面孔是使用同一个参考坐标系;
  • 隐式排列对齐,使用 STN。

  在后一种情况下,网络根据输入图像预测对齐参数,因此可能学会缩放人脸的特定部分,必要时可将训练集中的预期损失最小化。

  在这两种情况下,核心思想都是我们希望循环卷积模型将人脸“tubelet”作为输入,这是一个跨越视频帧的时空紧密对齐的人脸序列。


所有篡改类型的检测精度。结果表明,采用线性和双向递归网络的 DenseNet 性能最好

  2、基于视频人脸篡改的检测

  对于人脸篡改的检测,我们使用一个类似于用于视觉识别的 Long-term 循环卷积网络。

  论文链接:

  https://arxiv.org/abs/1411.4389

  其中输入是来自查询视频的帧序列,这个模型背后是在利用跨帧的时间差异。由于篡改是在逐帧的基础上进行的,研究人员认为图像中会存在时间差异。因此,由对人脸的篡改引起的低层次的差别则有可能表现为跨帧不一致特性的时间差异。

  骨干网络(Backbone encoding network):

  在实验中,研究人员探索了 ResNet 和 DenseNet 两种架构作为模型的 CNN 分量。

  无论采用何种架构,首先对主干网络进行 FF++ 训练分割,使交叉熵损失最小化,进行二值分类,形成特征,从合成人脸中识别真实人脸。然后用 RNN 对 Backbone 进行扩展,最后在多种策略下形成端到端训练。

  RNN 的训练策略:

  研究人员使用放置在骨干网络不同位置的多个循环模型进行实验:用它将骨干网络连接在一起,用来进行特征学习,将特征传递给随时间推移聚合输入的 RNN。

  在这里研究人员也尝试了两种策略:一是在骨干网的最终特性基础上,简单地使用单一的递归网络;二是尝试在骨干网结构的不同层次上训练多个递归神经网络。


所有篡改类型的 ROC 曲线。每一行对应一个不同的篡改类型。左列为线性图,右列为线性对数图

  希望能从源头阻止 deepfake 假视频

  研究的共同作者 Wael AbdAlmageed 表示,这种模式可以被社交网站和视频网站用于大规模识别 deepfake 假视频,因为它不需要通过“学习”特定个体的关键特征来进行识别,而是通用的。

  “我们的模型对于任何人来说都是通用的,因为我们不关注某个人的身份,而是关注面部运动的一致性,”AbdAlmageed 说,“我们将发布自己的模型,所以社交网络无需训练新的模型。网站只需要在其平台中加上该检测软件,以检查上传到平台的视频是否为 deepfake 生成的假视频。”

  机器学习的出现让造假的成本逐渐变低,很多玩火不嫌事大的开发者还开发出许多不需要写代码直接可以造假的小软件,尽管他们不一定是出于恶意,但是不排除软件最后被用到“作恶”的地方。

  虽然还有许多方法可以反“AI 造假”(例如在拍摄图片时生成”噪声水印”),但利用 AI 来识别 AI 造假,并且将这项技术加载到视频网站的审查过程中,那么从源头大规模地阻止假视频流向公众,或许可以成为现实。

  相关报道:

  https://www.vice.com/en_us/article/evy8ee/ai-can-now-detect-deepfakes-by-looking-for-weird-facial-movements

来自:
大数据文摘(ID:BigDataDigest)

作者:Johnson
原创文章,版权所有,转载请保留原文链接。