浅谈音视频的模拟和伪造对金融风险防控的影响

深度伪造（Deepfake）也被译作“深度造假”，由深度学习（Deeplearning）与伪造（fake）二词组合而来，是指通过自动化手段及人工智能技术实现音视频的模拟和伪造。

一、深度伪造技术原理

深度伪造最常运用的是换脸技术，即针对图像中人脸的篡改伪造，主要包括换脸伪造技术、表情伪造技术以及针对语音的深度伪造。

1.换脸伪造技术

换脸伪造技术是指通过对不同图片中人脸的交换、改变以达到修改面目的目的，其技术发展经历了从传统的三维重建方法到以生成对抗网络为基础的深度学习伪造的过程。

在基于图形学的伪造方法中，通常的做法是先获取人脸关键点，然后在得到了这些对人脸影响最大的关键点信息之后，通过3D模型对获取到的关键点进行渲染，并在渲染过程中不断缩小目标形状和关键点定位间的差异，最后将渲染模型混合并进行色彩矫正得到最终图像，基于图形学的人脸伪造如图1所示。

图1 基于图形学的人脸伪造

基于图形学的方法成本和门槛依然很高，很难普及。随着技术的不断进步，深度学习开始在这一领域发挥作用。深度学习技术在人脸伪造方面的应用早期是通过对两个自动编码器进行训练，使其共享权重参数，建立重建人脸的能力，并在交换阶段交换编码器来达到效果，这种学习方法比较依赖训练技巧，普适性不强，于是生成式对抗网络（Generative Adversarial Networks，GAN）技术开始受到人们的关注。

GAN是由蒙特利尔大学的Goodfellow Ian于2014年提出的一种生成模型（如图2所示），该模型包含了两个主要部分：一个是生成网络G，另一个是判别网络D。其中，生成网络G负责训练、学习训练集中真实数据的概率分布，目标是将随机生成的噪声转化为可以使用的图片；判别网络D负责对生成模型生成的图片进行分辨，将假的图片与真的图片分离开来。“G训练-D判别”这样一个博弈模式在比较中不断增强，使生成网络G在没有先验知识与先验分布的前提下可以较好地去学习真实图像，生成更加逼真的伪造图片。

图2 生成式对抗网络模型

对抗网络存在训练不稳定的缺点，依靠卷积神经网络、池化层等技术手段的处理，人们提出了一系列基于对抗网络的优化模型，达到了更好的训练效果。GAN技术使得所换之“脸”更加逼真自然，而基于GAN技术的一系列拓展技术也在修改年龄、凭空生成人脸等方面实现了以假乱真的效果。

2.表情伪造技术

表情伪造技术包括基于图形学的方法和深度学习的方法。基于图形学的表情伪造使用3D建模与渲染的方式实现表情的实时迁移，并利用含有时空架构的生成网络来重建图像。不同于图形学方法会依赖于3D空间中的数据模型，基于神经网络框架的合成方法能够有效进行输入匹配，使2D的数据资源也能在3D世界中重现，在五官表情上实现较好的匹配迁移。表情伪造技术的成熟也让其在越来越多的场景得到运用。

3.针对语音的深度伪造

针对语音的深度伪造主要是指通过人工智能技术生成与真实人声无差异的“假语音”，通常有文本到语音（TTS）和语音转换（VC）这两种形式。早期的语音合成主要通过隐马尔科夫模型和高斯混合模型实现，生成的语音相较于真实的人声有明显区别。随着技术的发展，语音合成和转化技术的质量得到了明显的提高：通过使用低维度的可训练人声编码来增强文本转换到语音这一过程,使得单个模型能够生成不同的声音；基于注意力机制的全卷积系统通过使用字符到频谱图的结构，能够实现完全并行的处理，在不降低合成性能的情况下更快地生成结果；利用GAN 技术对语音的噪音进行过滤，提高了生成语音的质量。目前，语音合成技术愈发成熟，并基于音视频的特性出现在视频之中，使得真假混合的音视频文件越来越多，鉴别难度也越来越大。

二、深度伪造检测技术

深度伪造技术的出现及发展也驱使着检测技术的不断进步，一直以来人们都致力于通过技术手段来实现自动化检测深度伪造音视频文件。

1.特定篡改的信息检测

针对图像的取证，传统做法主要依赖于特定篡改的信息，利用图像的频域特征和统计特征，例如局部噪音、图像质量、设备指纹、光照等，解决复制、移动、拼接、移除等图像篡改问题。针对由深度伪造技术所合成的图片，也可以通过这些特定的信息识别出其篡改与合成的痕迹。

2.利用生理特征检测

在图像信息以外，生理特征也被用作检测深度伪造。由深度伪造技术生成的伪造视频往往忽略人的真实生理特征，与自然状态中的人存在一致性差异，因此基于生理信号的特征的检测技术也被广泛使用，从人脸形状的自然程度、姿态的自然差异、生物活动的连贯一致性等角度对深度伪造视频进行检测。但是此类检测方法建立在深度伪造技术停滞不前的基础上，随着深度伪造的技术不断改进，如对眨眼、动耳、转动眼球等动作的学习伪造，使此类方法将失去效果，而针对心率、脉搏等生物信号的检测则会受到视频压缩处理等操作的影响。

3.使用GAN技术进行检测

研究表明，GAN生成技术改变了图像的像素和色度的空间统计特征，而GAN生成器的中间值通常通过归一化来限制输出，从而限制饱和像素的频率，可以通过识别出伪造文件中图像特征值级别的漏洞来进行检测。但此类基于GAN特征的方法需预知伪造内容的GAN 结构，存在过拟合等影响最终效果的问题，在无法预知生成器的情况下此类检测方法的泛化能力很差。对不同结构的GAN以及基于其的深度伪造研究，还有很大的探索空间。

4.利用深度伪造的对抗性检测

深度伪造的生成具有对抗性特征，对抗性的攻击也一直层出不穷。在神经网络中，对抗样本攻击是一种被广泛使用的技术，即通过对输入增加噪声或者干扰，可以有效地影响模型的训练，最后达到只需通过特定的噪音就可以有效检测的效果，这使得深度伪造技术在对抗检测时可以有效隐藏自身的特征。对抗性的发展使得攻防博弈成为一个长期的过程，往往新的对抗技术出现不久对抗方法也会随之更新。未来，深度伪造的对抗将不断持续下去。

三、深度伪造给金融领域带来的风险

1.金融线上化趋势加剧深度伪造的威胁

对于金融行业而言，音视频技术与人工智能技术在金融服务中的应用越来越多，音视频服务将逐渐形成线上金融服务的支撑能力，也因此更容易受到深度伪造内容的冲击。

在金融服务中，人脸、声纹等重要信息是重要业务的审核依据，一旦伪造的人脸、声纹数据通过了审核，那么金融服务的安全性将得不到保障。随着金融服务的数字化程度的不断加深，音视频技术得到广泛运用，深度伪造对金融领域冲击和破坏会越来越大。

2.深度伪造的方向增多导致技术应用风险加大

深度伪造在早期主要是指针对视频内容的伪造，具体体现为换脸——把一个人的脸部轮廓和表情放置在其他人的脸上。但是随着技术发展，换脸、唇形同步、面部复现、动作转移、眨眼模拟等技术让深度伪造的方向不断增多，可模拟伪造的行为也不断增加，这就意味着一个深度伪造视频，伪造的地方可能是人脸、表情或者嘴唇的形状。伪造方向的增多与精度的提升使得人脸识别、微表情识别、语音识别等技术的运用潜藏着不小的风险，同时对服务过程中使用人工智能技术获取的人脸身份信息、语音签约记录的可信度与安全性也有一定的影响。

3.深度伪造的成本降低导致被攻击频率更高

因模型的训练需要大量的视频素材以及具备强大算力的GPU服务器，深度伪造视频在早期主要由实验室、有条件的个人或组织制作。随着技术的发展，通过网络云计算服务、开源软件与平台化算法等手段制造高精度的深度伪造视频的成本越来越低，效率越来越高，网络上深度伪造视频的产生速度与占比也会大幅提高。制作深度伪造视频的门槛降低势必会导致技术的滥用，深度伪造视频在金融业务中的出现频率会越来越高。

4.深度伪造的技术升级导致技术防范难度加大

深度伪造技术是一种基于人工智能的技术，而任何基于人工智能技术展开的攻防对垒都会随着模型和数据的发展而进行持续的“军备竞赛”，深度伪造者可以很容易地追赶上新技术发展的脚步，并将全新的技术运用到深度伪造内容的生产中，例如早期的换脸视频在眨眼这一动作的处理上十分僵硬，但是随着针对眨眼检测技术的公开，深度伪造换脸视频也很快具备了新的眨眼模拟功能。在互联网高度发达的今天，深度伪造可以通过互联网上的海量数据对算法和模型不断升级，针对金融服务漏洞的深度伪造只会变得越来越难以防范。

四、结语

深度伪造正不断冲击着“眼见为实”的传统观念，可以说，深度伪造是AI时代的必然产物，虽然针对深度伪造的检测技术已经有了一定的研究成果，但是目前仍有诸多关键问题亟待解决，随着新技术的发展，深度伪造也会给各行业带来更多的挑战。深度伪造所带来的一系列问题既需要法律与技术的不断进步，也需要政府与平台对互联网环境的不断升级治理。金融行业对深度伪造风险的防控能力势必会影响到金融服务的效益，在音视频多媒体技术不断发展的将来，金融行业的从业者需要在数字化的潮流中把握好信息安全和信用稳固的底线。

声明：本文来自FCC30+，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

浅谈音视频的模拟和伪造对金融风险防控的影响

比特币创新高，特朗普组建“加密政府”

关于信息科技外包风险管控的探索与研究

“支付宝崩了”冲上热搜，官方致歉