编译:让妲己看看你的心
在俄罗斯小说家 Victor Pelevin 的赛博朋克小说《Homo Zapiens》中,一位名叫 Babylen Tatarsky 的诗人在苏联解体后、俄罗斯经济崩溃之际,被一位大学老友聘为广告文案撰稿人,来到了莫斯科工作。Tatarsky 有着巧妙的文字游戏天赋,他很快就在公司里一路青云直上。在那里他发现,像当时的俄罗斯总统 Boris Yeltsin 这样的政治家和重大政治事件实际上都是虚拟的模型。而现如今,随着越来越复杂的 DeepFake 产品的出现,似乎 Pelevin 在小说中描绘的情境正在慢慢实现。
在 DeepFake(或被研究人员称之为“合成媒体”)领域内,人们的注意力主要集中在可能对政治现实造成严重破坏的 AI 换脸之上,以及其他能够模仿一个人的写作风格和声音的深度学习算法上。但合成媒体技术的另一个分支正在迅速发展:针对全身的 DeepFake。
2018 年 8 月,加州大学伯克利分校的研究人员发布了一篇题为《每个人都会跳舞》的论文及相关视频,展示了深度学习算法如何将专业舞者的动作转移到业余舞者身上。虽然看起来很原始,但这表明机器学习研究人员正在处理更困难的任务,即制造全身范围的 DeepFake。同样在 2018 年,德国海德堡大学 Bjorn Ommer 博士领导的一个研究团队发表了一篇关于训练机器人真实呈现人类动作的论文。今年 4 月,日本人工智能公司 Data Grid 开发了一种人工智能,可以自动生成不存在的人的全身模型,这可以在时尚和服装行业拥有实际的应用。
虽然很明显,全身 DeepFakes 有一些有趣的商业应用,比如 DeepFake 舞蹈应用,或者在体育和生物医学研究等领域,但在如今因造谣和假新闻而分化的政治气候之下,恶意使用案例正日益受到关注。目前,全身 DeepFakes 还不能完全愚弄人类的眼睛,但就像任何深度学习技术一样,这一领域也会在不远的将来取得进步。这只是一个时间问题,即全身 DeepFake 多久会变得与真人难以区分。
完全人体合成
为了制造 DeepFakes,计算机科学家们使用一种生成式对抗网络(简称 GANs)。这些网络通常由两个神经网络组成,一个是合成器或生成网络,另一个是检测器或判别网络。这些神经网络会在一个经过改进的反馈回路中工作,以创建真实的合成图像和视频。合成器从数据库创建图像,而后者从另一个数据库工作,确定合成器的图像是否准确和可信。
第一次恶意使用 DeepFakes 的案例发生在 Reddit 上,Scarlett Johansson 等女演员的脸被替换到色情演员的脸上。Fast.ai 的 Rachel Thomas 表示,目前存在的 95% 的 DeepFakes 都是色情用例,目的是用虚假的性行为骚扰某些人。Thomas 说:“有些 DeepFakes 视频并不一定会使用非常复杂的技术。但是,这种情况正在开始改变。”
Farid 指出,中国的 DeepFake 应用 Zao 说明了这项技术在不到两年的时间里发展得有多迅速。
Farid 说:“我看到的那些来自 Zao 的视频看起来非常非常好,而且有很多人工的改良在其中,使之看起来就像电影版本中脸部动作的那种。技术正在不断的发展,要让 DeepFake 作为一个应用进行大规模的工作,并让数百万人下载到手机上,这是很困难的。Zao 的成功标志着 DeepFake 的成熟。”
“有了 DeepFake 的图像和视频,我们基本上实现了 CGI 技术的民主化。我们已经把它从好莱坞电影公司的手中夺过来,交给了 YouTube 的视频制作者们。”
Björn Ommer,海德堡大学图像处理合作实验室(HCI)和科学计算跨学科中心(IWR)的计算机视觉教授,领导着一个研究和开发全身合成媒体的团队。与该领域的大多数研究人员一样,该小组的总体目标是理解图像,并教机器如何理解图像和视频。最终,他希望团队能够更好地理解人类是如何理解图像的。
Ommer 说:“我们已经看到了合成的化身,不仅是在游戏行业,而且在许多其他领域创造了收入。特别是对我的团队来说,我们考虑的是完全不同的领域,比如生物医学研究。我们想要更详细地了解人类甚至是动物,我们希望随着时间的推移,扩大到一些与残疾相关的行为等等。”
在合成人脸和全身的过程中存在着关键的差异。Ommer 说,人们已经对人脸合成进行了更多深入的研究。这有几个原因:首先,任何数码相机或智能手机都有内置的人脸检测功能,这种技术可以用于检测微笑或识别正在看节目的观众。这样的应用可以产生收益,从而带来更多的研究。但是,正如 Ommer 所说,它们也导致了“大量的数据集组装、数据管理和人脸图像获取,这些都是建立深度学习研究的基础。”
第二,对 Ommer 来说更有趣的是,虽然每个人的脸看起来都不一样,但是当把脸和整个人的身体相比较时,并没有太大的可变性。“这就是为什么对面部的研究已经到了一个阶段,我想说,相对于面部合成技术来说,人体存在着更多的可变性,处理起来更加复杂,如果你朝着这个方向前进,还需要学习更多。”
Ommer 不确定什么时候完全合成的身体会达到他和研究人员想要的质量。然而,从恶意 DeepFake 的成熟用例来看,Ommer 指出,即使没有深度学习计算机视觉智能、人工智能或其他技术所创造的模仿,人类也已经很容易被欺骗。慢镜头拍摄的 Nancy Pelosi 视频让这位众议院议长显得醉醺醺的。在他看来,这段视频表明,这种带有非常简单转折的 DeepFakes 的出现,可能会让某些社会阶层信以为真。
Ommer 说:“但是,如果你想让更多的人相信 DeepFake 的图片或视频,还需要几年的时间。”Ommer 认为未来,全身 DeepFake 将变得更便宜和更普遍。“研究社区本身已经朝着一个方向发展,这一点得到了很多的赞赏。它们对我们所看到的算法容易获得的稳定进展负有责任,比如 Github 等。所以,你可以从一些论文中下载最新的代码,然后,在不了解隐藏内容的情况下,直接应用它。”
感到“无力和麻痹”
并不是每个人都能创造出一部“轰动一时的 DeepFake”。但是,Ommer 说,随着时间的推移,金钱将不再是算法资源方面的问题,软件的适用性也将变得容易得多。Farid 说,有了全身 DeepFake,恶意制造者就可以利用 DeepFake 技术让静止图像直接对着摄像机说话,让目标做他们永远不会做和说的事情。
2016 年美国大选期间假新闻的爆炸,以及 2017 年 DeepFake 的兴起,激发了调查记者 Van de Weghe 对合成媒体的研究。2018 年夏天,他开始在斯坦福大学设立奖学金,研究打击恶意使用 DeepFake 的方法。
Van de Weghe 说:“受威胁最大的不是大人物、大政客和大名人,而是像你我这样的普通人、女记者,还有一些边缘化的群体,他们可能或已经成为 DeepFake 的受害者。”
两周前,荷兰新闻主播 Dionne Stax 发现自己的脸被 DeepFake 到了一名色情女明星的脸上,这段视频被上传到 PornHub 网站并在互联网上传播。尽管 PornHub 很快删除了这段视频,但 Van de Weghe 说,她的声誉已经受到了损害。
全身 DeepFake 可能会为记者行业带来怎样的影响呢?Van de Weghe 提到了 2018 年美国有线电视新闻网白宫首席记者 Jim Acosta 的例子。在阴谋论网站 Infowars 编辑 Paul Joseph Watson 上传的一段视频中,Acosta 似乎咄咄逼人地推搡着一名试图拿他麦克风的白宫工作人员。由C-SPAN 播出的原始片段与 Watson 上传的有明显不同。Infowars 的编辑声称他并没有篡改视频,并将出现的任何差异归因于“视频压缩”。但是,正如《独立报》在编辑时间轴上对视频进行的并排分析所显示的,Watson 的视频缺少了原视频的几帧。全身 DeepFake 就像编辑视频帧一样,可以改变事件的真实性。
Deeptrace Labs 成立于 2018 年,是一家网络安全公司,正在开发基于计算机视觉和深度学习的工具,以分析和理解视频,尤其是那些可以被人工智能操纵或合成的视频。该公司创始人 Giorgio Patrini 曾在阿姆斯特丹大学德尔塔实验室从事深度学习的博士后研究。他说,几年前,他开始研究预防或防范未来合成媒体滥用的相关技术。
Patrini 认为,由合成人体、人脸和音频组成的恶意 DeepFake,将很快被用来攻击记者和政客。他指的是一段深度伪造的色情视频,视频中印度记者 Rana Ayyub 的脸被换到了一名色情女演员的身体上,这是一场虚假信息运动的一部分,目的是抹黑她的调查报道。此前,她公开要求对强奸和谋杀一名 8 岁克什米尔女孩的行为进行司法审判。今年 3 月,Deeptrace Labs 对加蓬总统 Ali Bongo 的 DeepFake 进行了调查。尽管这个非洲国家的许多人认为 Bongo 一动不动的脸、眼睛和身体暗示着一个深层的骗局,包括加蓬军方在内的许多人认为 Bongo 的脸、眼睛和身体都是假的,加蓬军方基于这一信念发动了一场失败的政变。Patrini 表示,他不相信总统的视频是合成的。
Patrini 说:“我们找不到任何理由相信这是一件 DeepFake。我想,这后来被证实,总统还活着,但是他中风了。我想在这里指出的重点是,一个视频是否是假的并不重要,重要的是人们知道它会在公众舆论中引发怀疑,在某些地方还可能引发暴力。”
最近,Van de Weghe 了解到,一名政党运营人员接触了一位最受欢迎的 DeepFake 创作者,要求他利用 DeepFake 伤害某个人。在未来,这种定制的 DeepFake 可能会成为大生意。
Van de Weghe 说:“用 DeepFake 可以赚钱,人们会点开看的。所以,一个政府不必造假,他们只要联系一个专门制造 DeepFake 的人就可以。”
《华尔街日报》最近报道称,一家英国能源公司的首席执行官被骗,将 24.3 万美元转入一家匈牙利供应商的账户。这位高管说,他相信自己是在和老板谈话,他的老板似乎已经批准了这笔交易。现在,这位首席执行官认为他是一场“网络钓鱼”音频深度诈骗的受害者。Farid 认为,DeepFake 的其他欺诈性金融计划(可能包括全身 DeepFake)只是时间问题罢了。
Farid 说:“我可以制作一个贝佐斯的 DeepFake 假视频,操纵他说亚马逊的股价正在下跌。想想看,做空亚马逊股票能赚多少钱。当你控制它的时候,伤害已经造成了。现在再想象一下一个民主党候选人说一些非法或不敏感的话的视频,你认为在选举前一天晚上这样的行为可以左右成千上万选民的投票吗?”
Farid 认为,社交媒体和 DeepFake 视频的结合,无论是面部还是全身,都很容易造成大破坏。社交媒体公司基本上无法或不愿意调整其平台和内容,因此 DeepFake 可以像野火一样蔓延。
他表示:“当你把创建 DeepFake 内容的能力与在全球发布和消费内容的能力结合起来时,就会出现问题。我们生活在一个高度分化的社会,原因有很多,人们会把意见相左的人往坏处想。”
但是对于 Fast.AI 的 Thomas 说,在新的网络冲突中,DeepFake 几乎没有必要对政治进程产生负面影响,因为政府和行业已经在与书面形式的虚假信息作斗争。她说,这些风险不仅与技术有关,还与人为因素有关。社会两极分化,美国的大片地区不再有他们可以信任的真理来源。
这种不信任可能会让有政治动机的 DeepFake 创造者有机可乘。正如隐私学者 Danielle Citron 所指出的,当 DeepFake 被揭穿时,它可以向那些相信谎言的人暗示,谎言是有一定道理的。Citron 称之为“骗子的红利”,Farid 认为,全身 DeepFake 技术的进步将使这类邪恶问题变得更糟。受到《每个人都会跳舞》等大学研究和 Zao 等企业的推动,这项技术正在快速发展,货币化也只是时间问题。
Farid 说:“一旦你能做全身动作,就不再只是脑袋说话了,你可以模拟人们做爱或杀人。未来就在眼前吗?不一定。但最终,也许就是一两年后,人们就能做全身程度的假动作,这并不是没有道理的,而且技术会非常强大。”
行业反应
目前,科技行业还没有达成根除 DeepFake 的共识。许多不同的技术正在研究和测试中。
例如,Van de Weghe 的研究团队创造了各种内部挑战,探索了不同的方法。一个研究小组研究了胶片的数字水印以识别 DeepFake。另一个团队使用区块链技术来建立信任,这是它的优势之一。然而,另一个团队通过使用与最初创造 DeepFake 相同的深度学习技术来识别 DeepFake。
Van de Weghe 说:“斯坦福大学的一些辍学者创造了 Sherlock AI,一种自动的 DeepFake 检测工具。他们取样了一些卷积模型,然后在视频中寻找异常。这一过程也被其他 DeepFake 检测器所使用,比如 Deeptrace Labs。他们使用一种名为 FaceForensics++ 的数据集,然后对其进行测试。准确率高达 97%,对人脸的识别效果也很好。”
Deeptrace 实验室基于 API 的监控系统可以查看 DeepFake 视频的创建、上传和共享。自 2018 年成立以来,该公司已经在互联网上发现了超过 1.4 万个虚假视频。Deeptrace 实验室的系统收集到的信息可以告诉公司及其客户,DeepFake 的创造者在做什么,假视频、假突破来自哪里,他们在使用什么算法,以及这些工具的可访问性如何。Patrini 说,他的团队发现,95% 的 DeepFake 都是假色情类的面部互换产品,其中大多数是名人。到目前为止,Deeptrace 实验室还没有看到任何全身合成技术被应用在普通人身上。
Patrini 说:“你不能用单一的算法或想法来总结这些问题的解决方案。这个问题是关于建立几个工具,可以告诉你关于合成媒体的不同情况。”
Van de Weghe 认为反 DeepFake 技术的下一个重大发明将会是软生物特征识别技术。每个人都有自己独特的面部表情——扬起的眉毛、嘴唇的动作、手部的动作——这些都可以作为某种个人特征。加州大学伯克利分校的研究人员 Shruti Agarwal 使用了软生物计量模型来确定这种面部抽搐是否可以被人为地用于拍摄视频。
Agarwal 说:“基本的想法是,我们可以建立各种世界领导人的软生物识别模型,比如 2020 年总统候选人,然后我们可以对网络上流传的视频进行分析,确定它们是真是假。”
尽管 Agarwal 的模型并不能被完全证明,因为不同环境下的人可能会使用不同的面部抽搐,但 Van de Weghe 还是认为未来公司可以提供用于身份验证的软生物特征签名。这种特征可能是众所周知的眼睛扫描或全身扫描。
Van de Weghe 说:“我认为这是前进的方向:与学术界和大型科技公司合作,创建更大的数据集。作为新闻编辑,我们应该努力培养人们对 DeepFake 的媒体素养。”
最近,Facebook 和微软联手各个大学,推出了“DeepFake 检测挑战”。另一项值得注意的努力是美国国防高级研究计划局的行动,即利用语义取证技术来对付 DeepFake。语义取证技术可以寻找算法错误,例如,在 DeepFake 视频中,出现了一个人戴的耳环不匹配的情况。2018 年 9 月,人工智能基金会筹集了 1000 万美元,创建了一个工具,这款工具可以通过机器学习和人工审核者来识别 DeepFake 和其他恶意内容。
但是,Fast.AI 的 Thomas 仍然怀疑技术是否能完全解决 DeepFake 的问题,不管是何种形式的技术。她认为建立更好的系统来识别 DeepFake 是有价值的,但她重申,其他类型的错误信息已经非常猖獗。Thomas 说,利益相关者应该探索社会和心理因素,这些因素也会导致严重的 DeepFake 和其他错误信息,比如,Nancy Pelosi 那部慢动作的视频是如何利用不喜欢她的选民的偏见的。
为什么监管 DeepFake 很难?
Thomas、Van de Weghe 和 Farid 都同意,政府将不得不介入并监管 DeepFake 技术,因为放大此类煽动性内容的社交媒体平台要么无法,要么不愿监管自己的内容。
今年 6 月,众议院情报委员会主席、民主党众议员 Adam Schiff 就 DeepFake 造成的虚假信息及其威胁举行了首次听证会。Schiff 在开场白中指出,科技公司对 Schiff 的假视频做出了不同的反应。YouTube 立即删除了这段慢速播放的视频,而 Facebook 将其标注为假,并限制了它在整个平台上的传播速度。这些不同的反应导致 Schiff 要求社交媒体公司制定政策,纠正 DeepFake 的上传和传播。
Fast.ai 的 Thomas 说:“在短期内,推广虚假信息和其他有害的、煽动性的内容对社交平台来说是有利可图的,因此我们的激励措施完全不一致。我不认为这些平台应该对它们所承载的内容承担责任,但我确实认为它们应该对积极推广的内容承担责任。例如,YouTube 将 Alex Jones 的视频推荐给那些甚至没有在搜索他的人。”
Thomas 补充道:“总的来说,我认为,考虑一下我们如何通过立法处理那些将巨额社会成本外部化、同时私下要求利润的其它行业(如工业污染、大型烟草和快餐/垃圾食品),是有帮助的。”
Deeptrace Labs 的 Patrini 说,对合成媒体的监管可能会变得复杂。但是,他认为,目前的一些法律,比如那些涉及诽谤和版权的法律,可以用来监管恶意的 DeepFake。一项全面阻止 DeepFake 的法律将是错误的。相反,他主张政府支持有利于社会的合成媒体应用,同时资助研究开发检测 DeepFake 的工具,并鼓励初创企业和其他公司也这么做。
Patrini 说:“政府还可以教育公民,这项技术已经存在,我们需要重新训练我们的耳朵和眼睛,不要相信我们在互联网上看到和听到的一切。我们需要给人们和社会打预防针,而不是在可能两年后因为滥用这项技术而发生非常灾难性或有争议的事情时修复民众情绪。”
Ommer 说,计算机视觉研究人员很清楚 DeepFake 的恶意应用。他认为政府应该为如何使用 DeepFake 建立问责制。
Ommer 说:“我们都看到了图像理解的应用,以及它可能带来的好处。其中一个非常重要的部分是责任,谁将承担这一责任?采访过我的政府机构显然看到了他们在这方面的责任。公司说,或许为了股东的利益,他们不得不说,他们看到了自己的责任;但是,到目前为止,我们都知道他们是如何处理这一责任的。”
Ommer 说:“这是一件棘手的事情,我们不能只是静静地祈祷这一切都会过去。”
来自:
猎云网