来源:Google AI,编辑:大明

深度学习的发展让一些在几年前看来完全不可能实现的技术变为可能。现代生成模型就是其中的一个例子,能够合成超现实主义的图片、语音、音乐甚至是视频。这些模型已经用在多个应用中,包括通过文本—语音转换,生成用于医学成像的训练数据等。

和其他任何颠覆性技术一样,这些技术也带来了新的挑战。“Deepfake”就是其中之一。自2017年底首次出现以来,已经出现了许多开源的Deepfake生成方法,导致合成媒体剪辑视频的数量不断增长。尽管许多人可能只是出于恶搞的目的,但仍可能对个人和社会产生负面影响。

Google认真对待这些问题。正如去年在《人工智能七原则》中所说的那样,我们致力于开发AI最佳实践,致力于减少AI技术滥用所带来的伤害和滥用。去年1月,我们发布了合成语音数据集,支持开发高性能合成音频检测器的国际挑战赛。作为该挑战赛的一部分,共有超过150个研究机构和行业组织下载了该数据集,这个数据集现在免费对公众开放。

现在,谷歌与Jigsaw合作,发布大型可视化Deepfake数据集,现已纳入Face Forensics视频基准测试。Face Forensics基准测试是德国慕尼黑工业大学和意大利那不勒斯腓特烈二世大学开发的图像测试。

本数据集是由包括Matthias Niessner教授,Luisa Verdoliva教授和FaceForensics团队在内的研究人员合作开发的,现在已经可以在FaceForensics的github页面上下载。

谷歌Google参与FaceForensics基准测试的视频样本的制作。为了生成这些样本随机选择了几对演员,利用深度神经网络将一个演员的脸换成了另一个演员的头。

为了制作这个数据集,在过去的一年中,谷歌与众多演员一起录制了数百个视频。然后使用公开可用的Deepfake生成方法,利用这些视频创建了数千个Deepfake假视频。这些由真实视频和虚假视频组成的数据集可以用于Deepfake的检测和识别。作为FaceForensics基准测试的一部分,该数据集现在已经开放供研究社区免费使用,用户可以用来开发合成视频检测的方法。

演员们在各种场景中拍摄视频。每张图中,上图为真实视频,下图为生成的Deepfake视频,二者之间可能存在着或微妙或明显的变化,具体取决拍视频的演员

由于Deepfake发展迅速,后续此数据集将随着Deepfake技术的发展而逐步添加更多内容,并将继续与该领域的合作伙伴合作。

我们坚信,要为蓬勃发展的AI研究社区提供支持,以减轻因滥用合成媒体而造成的潜在危害,本次发布的Face Forensics基准测试中的Deepfake数据集就是向着这个目标迈出的重要一步。

原文链接:

https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html

GitHub页面(数据集下载):

https://github.com/ondyari/FaceForensics/

声明:本文来自新智元,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。