当换脸技术变得触手可及,我们该如何保护自己?-Mo 动态

在过去的几天里,一款名为Deep-Live-Cam的软件包在社交媒体上走红,因为它可以从一张单独照片中提取一个人的面部,并将其应用到实时网络摄像头视频源上,同时跟随摄像头前人的姿态、光线和表情。虽然结果并不完美,但该软件展示了技术发展的速度——以及远程欺骗他人能力随时间显著变得更容易。
Deep-Live-Cam软件项目自去年年底以来一直在开发中,但展示了一个人实时模仿埃隆·马斯克和共和党副总统候选人J.D. 万斯(以及其他人)的示例视频在网上流传。这种关注浪潮一度使这个开源项目跃升至GitHub趋势仓库列表的第一名(截至本文撰写时,它目前排在第四位),在这里可以免费下载。
“奇怪,最近技术领域的所有重大创新似乎都来自欺诈技能树。”插画师科里·布里克利在X线程上对Deep-Live-Cam在行动中的示例视频做出反应时写道。在另一篇帖子中,他们写道:“很好,大家记得和父母建立暗号。”这指的是类似工具可能被用于远程欺骗——以及使用安全词的概念,朋友和家人之间共享,以确立你的真实身份。

当换脸技术变得触手可及,我们该如何保护自己?-Mo 动态

换脸技术并不新鲜。"deepfake"这个词本身起源于2017年,来自一个名为"deepfakes"的Reddit用户(结合了"深度学习"和"假"这两个词),他发布了将表演者的面部与名人面部互换的色情内容。当时,这项技术既昂贵又缓慢,并且不能实时操作。然而,由于像Deep-Live-Cam这样的项目,现在任何人都可以在家中使用普通PC和免费软件来使用这项技术。
deepfake的危险也不是新鲜事。今年2月,我们报道了一起涉嫌在香港的盗窃案,有人通过视频通话冒充一家公司的首席财务官,带走了超过2500万美元。音频deepfake导致了其他金融欺诈或敲诈计划。我们可以预期,随着易于获得的实时deepfake软件,远程视频欺诈的案例将会增加,受影响的不仅仅是名人或政治家。
使用换脸软件,有人可以从社交媒体上获取你的照片,并在不太熟悉你长相和行为方式的人面前冒充你——考虑到目前需要模仿类似的行为方式、声音、头发、服装和身体结构。克隆这些外观和声音方面的技术也存在(使用声音克隆和视频图像到图像AI合成),但尚未达到可靠的逼真实时实现。但随着时间的推移,这项技术很可能会变得更加容易获得和使用。

它是如何工作的?

像许多开源GitHub项目一样,Deep-Live-Cam将几个现有的软件包包装在一个新的界面下(它本身是一个早期名为"roop"的项目的一个分支)。它首先在源图像和目标图像(例如实时视频帧)中检测面部。然后,它使用一个名为"inswapper"的预训练AI模型来执行实际的面部交换,并使用另一个名为GFPGAN的模型通过增强细节和纠正在面部交换过程中发生的伪影来提高交换面部的质量。
当换脸技术变得触手可及,我们该如何保护自己?-Mo 动态

Inswapper模型是由一个名为InsightFace的项目开发的,可以猜测一个人(在提供的照片)在不同表情和不同角度下可能看起来如何,因为它是在包含数百万张面部图像的大型数据集上训练的,这些图像来自数千个人,从不同角度捕捉,在不同的光照条件下,以及具有不同的表达。
在训练过程中,inswapper模型的神经网络发展了对面部结构及其在不同条件下动态的"理解",包括学习从二维图像推断面部的三维结构的能力。它还能够将身份特定特征(在同一个人的不同图像中保持不变)与随角度和表情变化的姿态特定特征分离。这种分离允许模型生成新的面部图像,将一张脸的身份与另一张脸的姿态、表情和光线结合起来。
Deep-Live-Cam远非唯一的换脸软件项目。另一个GitHub项目,称为facefusion,使用相同的换脸AI模型,但具有不同的界面。它们大多数严重依赖于Python和深度学习库的嵌套网络,如PyTorch,所以Deep-Live-Cam并不像一键安装那样容易。但很可能这种换脸能力将随着时间的推移变得更加容易安装,并且随着人们在开源AI开发空间中迭代和相互构建,质量可能会提高。