今年三月初,杨幂因为“穿越”到了1994年版的《射雕英雄传》而上了热搜。这个视频最早由B站换脸哥发起,而后顶着杨幂脸的黄蓉就刷了屏。
视频中,大幂幂表情灵动,违和感不强,而背后的技术则是已经在欧美技术圈儿火了一年多的换脸黑科技——Deepfakes。
除了大幂幂,还有很多欧美明星中招。
美国女星劳伦科汉(Lauren Cohan)被移到《异尘余生4》上:
“神奇女侠”盖尔·加朵成为了AV女主角,还有包括斯嘉丽·约翰逊、麦茜·威廉姆斯、泰勒·斯威夫特等多个女星的羞羞图片。
一时间,从娱乐明星到普罗大众,谈Deepfakes色变。大家纷纷恐惧与类似技术可能带来的巨大危害。毕竟Deepfakes同时兼具了几个特质:
软件开源,一年多以前,Deepfakes首度上线了论坛Reddit,因为此机器学习模型能够把任何视频中的人脸替换成另一张脸而迅速被技术宅们尝试起来。虽然因为后来的“毛片”事件,Reddit禁止了Deepfakes,但这种技术已经在网络上扎了根,而且还有愈加逼真的势头;
成本低廉,过去,人工智能和深度学习一直是计算机大牛们的专属,没点计算机功底,很难做相关操作。但随着技术的逐步迭代,机器学习模型的使用门槛已经大大降低。拿Deepfakes来说,只需要花点时间,收集目标人物的大量照片,把模型训练熟了,将照片拖放到一个文件夹中,即可达到以假乱真的视觉效果;
可以批量完成,如今,几乎每天都有“热心”网民把莱娅公主的脸加到《星球大战:原力觉醒》(Star Wars: The Force Awakens)里,证明自己的实力足以“碾压”好莱坞特效工作室工业光魔公司(Industrial Light and Magic)。去年,一位特效界传奇人物感叹道,这位匿名用户引发了“一场关于孰真孰假的战争”。
如今,大概12个月过去了,无数事实证明,Deepfakes是有先见之明的。
在美国,正有一波新企业渴望借助类似的技术谋利,利用机器学习技术在媒体界立下前所未有的创举,从伪造声音到伪造头像,甚至伪造精细复杂的照片。
为此,《快公司》采访了其中三家致力于开发商业应用的公司。除了制定可持续的软件商业模式,各家公司还必须谨慎看待这项新兴技术的力量,思考如何保护社会不受其工具所害,以免破坏正常的社会秩序。
或者这三个公司的案例可以启发我们反思在这个科技日渐发达的社会,科技从业者不仅要研究技术的价值,更应守住商业社会的底线。
伪造细节
公司:Topaz Labs
领域:开发各类独立的图像编辑工具和插件
创新产品:Gigapixel AI
作用:以人工智能的方式为模糊不清的图片增强画质
潜在威胁:机器学习并不了解细节,只会重建细节,那么,如果机器错了呢?理论上讲,被应用于识别车牌以开罚单的AI软件,具备出错的可能性;
十几年来,艾瑞克·杨和阿尔伯特·杨(Eric and Albert Yang)共同经营着Topaz Labs,一家小而成功的软件公司,专门为Adobe After Effects等软件开发各类独立的图像编辑工具和插件。
父子俩花了几年的时间开发算法,聘请了图像增强专业的博士研究员,帮助他们完成费时费力且高度专业化的软件制作工作。其软件能够从视频中提取异常清晰的图像,也可以为移动图像添加电子辉光。
接着,一场机器学习革命爆发了。突然之间,他们可以训练神经网络完成锐化图像的艰苦任务:“我们最大的惊喜之一……就是可以立即抛掉10年的辛苦工作。”因此,在过去一年里,该工作室围绕机器学习技术,或多或少进行了自我重建。埃里克表示:“(我们)几乎成了一家新的创业公司。”
该公司新推出的人工智能(简称AI)软件套装大受欢迎,预计今年将拉动50%的收入增长。这套软件支持从降噪到将简单的JPEG格式转换为高度可编辑的原始图像等各种功能。其中的重头戏是Gigapixel AI,本质上就是现实版的“增强画质!”
Topaz Labs案例
它能把一幅分辨率极低的图像放大600%。原始图像中的每个像素都要通过200万个单独处理程序的分析和优化,使一张iPhone照片变成80英寸的冲印相片。
这背后的功臣就是AI:经过数万张图像的训练,AI掌握了大部分照片中单个像素相互环绕的一般外观效果。Gigapixel AI的效果惊为天人,以至于Topaz Labs常常得费劲向客户解释,他们网站上的示例是真实的。
Gigapixel AI十分擅长景观照和风景照的增强,给人像添加细节实际上是它的弱项,因为它不知道人脸应该长什么模样。
图片来源:Topaz Lab
然而,只要这款软件能够造出逼真的假照片,它就有可能以其它方式被滥用。
关于这点,Topaz再清楚不过了。早已有警察机构采用其旧版非AI软件增强车牌照画质,以更好地识别车牌号(然后开交通罚单)。该公司的AI软件实际上会生成新的像素,所以他们也承认,从理论上来讲,人工智能也有可能“猜错”像素,如果用来查车牌,那么是有可能出现错误的数字或字母的。
“众所周知,机器学习并不了解真正的细节,它只会重建细节。这显然是有问题的。”阿尔伯特说道,“随着这项技术的进步,我们必须更多地去深思。以目前的数据水平,我们倒不需要太担心,还不至于因为软件伪造车牌号而导致交警揪错人。”但这个可能性是存在的。
因此,Topaz正试图控制其软件的使用,包括向摄影师推销这项技术,并针对其局限性向其他人(比如官方机构)提出忠告。“我们目前还不打算进入安全执法领域。”艾伯特补充道。
伪造人声
公司:Modulate
领域:声音处理
作用:将你的声音转化为任何一个人的声音
潜在威胁:如果此技术被用来模仿名人、政客或者是你身边的任何一个朋友的声音,都可能产生致命威胁
迈克·帕帕斯(Mike Pappas)正走在麻省理工学院宿舍的走廊上,这时,他看到一个人在房间里摆弄白板。此人是物理系本科生卡特·霍夫曼(Carter Huffman),也是Modulate未来的首席技术官。Modulate成立于2018年,获得了来自Harmonix工作室(您可听说过《吉他英雄》?)创始人等音频创新者的200万美元资金。
它的作用类似于Deepfakes,只不过处理对象是语音:它可以把你的声音转换成任何人的声音。Modulate的网站上有一段巴拉克•奥巴马(Barack Obama)“本人”推荐这款软件的演示视频,虽然容易引起误解,但逼真度确实没得说。
Modulate的想法诞生于2015年左右。当时,霍夫曼发现了一种叫做“风格转移”的新现象,能够把一件艺术品的风格套用到另一件艺术品上,比如让一张照片看起来像是梵高的画作。
在训练机器生成逼真的赝品方面,不妨把风格转换想象成Deepfakes的“近亲”。
“卡特当时正在研读相关资料,他产生了一个想法,不如把音频保存为一张图像,一张光谱图。他想知道,如果我们尝试在这个音频上做图像风格的转换,会产生什么结果。”帕帕斯回忆道,“他做了实验,得到的直接答案是,这样的音频听起来完全是垃圾。”
Modulate核心团队
然而,经过三年的修整,Modulate的表现已经相当不错了。该软件的工作原理是对一个人的许多声音样本进行模型训练。这意味着,录制过数小时音频的公众人物更容易成为模仿的目标。理论上,你可以利用Modulate的技术,建立一个政客、名人或经常公开讲话的人的声音模型,然后随时通过电脑用他们的声音说话。
但帕帕斯对于用Modulate模仿政客或名人不感兴趣。“奥巴马的声音出现在我们的网站上,是为了演示某个人物或角色的声音匹配效果,而他恰好有很多公开音频,所以很方便。”帕帕斯说,“有人说,如果说话声音能像奥巴马,玩个一两分钟,也是挺酷的。”所以,他们实际上并不提供奥巴马的人声“滤镜”。
相反,Modulate希望把技术授权给社交媒体和游戏公司,让这些平台的用户拥有一个很酷的音频化身,但仅限于平台范围内。这个声音不是被用户本人训练成像他一样的声音,而是由开发人员训练成某个角色的声音,所以会受到相对严格的控制。在《守望先锋》(Overwatch)等游戏中,如果能用真人配音演员的声音说话,你又何必暴露自己小学生/初中生的身份呢?
“最有意义的直接应用是为上网的消费者设计在线角色。他们花钱给角色买了新皮肤,但只要开启语音聊天…就打破了自己制造的幻觉,因为他们只能用自己的声音。”帕帕斯说,“请赋予他们完全进入角色的自由。”
话虽如此,帕帕斯并不否认,Modulate可以加入名人的声音。他指出,《堡垒之夜》(Fortnite)最近推出了NFL(美国国家橄榄球联盟)视觉皮肤,供玩家购买,没准有些球员还会想为这款游戏“献声”。
在这方面,Modulate也已经考虑过如何及早打击欺诈行为。它给所有的录音添加了音频指纹,虽然裸耳听不出来,但观察声波波形就能轻松发现。这样的指纹虽不足以阻止假新闻的快速传播,但至少可以用来反驳某位名人发表了争议言论的假视频。
然而,这项安全措施仍然不够完善,而这也是Modulate一直以来关注的焦点。“世界上有很多技艺精湛的音频工程师,也许有一天他们可以编辑这些水印。”帕帕斯说,“所以,我们的任务之一就是寻找新方法,让水印更深入地嵌入到音频之中。因此,我们正在开展新的机器学习研究,以制作更加强健的水印。”
伪造身体
公司:Meo
领域:将面部2D转化为3D图像
作用:用于游戏等虚拟场景,从而提高趣味性
潜在威胁:可能会有人滥用这个系统,拿别人的脸创建3D模型
米沙·莱博维奇(Misha Leybovich)一直梦想成为一名宇航员。所以,他进入加州大学伯克利分校攻读工程学本科学位,然后在麻省理工学院获得了技术政策和航空航天工程的双料硕士学位。
他开玩笑说,从来没有人告诉过他,大部分成年人最后都没有当上宇航员。后来,他在麦肯锡咨询公司找了份工作,心里却萌生了创业的念头。
他的平台Meo足足酝酿了三年。Meo的技能是把面部2D视频转换成3D头像。这个头像可以是一条龙或一只小猫,但它能够传达你的情绪状态,模仿你独特的微表情,比如淡淡的微笑或皱眉,这是苹果animoji做不到的。
在筹集了250万美元的资金后,Meo也交出了一份合格的成绩单,现在它正面向电子游戏行业出售,计划整合到游戏中。
在莱博维奇的设想中,Meo最终能够让用户制造出一个逼真的自己,用于从游戏到社交网络到美妆应用等任意平台。通过拍摄成千上万甚至上百万张你的照片,Meo能够把攻击好友城堡的游戏角色做成你的模样,或者帮你看看新眼线笔画在你脸上的效果。“总而言之,只要你创建了自己的3D模型,你想拿它做什么都可以。”莱博维奇说道。
源图:Luke Braswell/Unsplash高清图库
莱博维奇承认,可能会有人滥用这个系统,拿别人的脸创建3D模型。他说:“最终,你可以模仿名人,或其它任何东西。”
也许,你可以把手机对准一个Twitch播主直播玩游戏的视频,然后根据视频内容创建化身。
又或者,你不喜欢这么明目张胆的伪造。你只是想撒一点小谎,用假想中的Instagram滤镜调整你的外表,加几块腹肌,提亮肤色,或者修改年龄和性别。
莱博维奇坦言,视频本身就给人一种可信的感觉,所以被滥用的可能性是存在的。成年人可以伪装成儿童,心怀嫉妒的前任可能假扮成新追求者。 “我想,任何一家优秀的科技公司都希望他们的工作成果是为善而非为恶所用。”莱博维奇说,“我们正在努力未雨绸缪,为我们的技术建立保护措施。”
Meo的保护措施很有潜力,有望成为其他平台仿效的模型。为了整合Meo,开发人员必须使用其软件开发工具包,里头包含了所谓的真实分数和实时分数。真实分数描述了你的模型偏离核心脸型的程度。把鼻子缩小一点,你的真实得分可能就是85%。把自己变成一个80岁的精灵,你的真实分数可能就会降到25%。
而实时分数则描述了Meo对于你的化身是来自你的真实面孔还是预先录制的视频的确定程度。如何将这些分数整合到自己的应用程序取决于开发者,但很可能是直接发布在用户的个人资料页面上,点击鼠标就能快速查看。
“应该做到公开透明。”莱博维奇称,“我们能否强制要求整个行业采用真实分数和实时分数?不能,我们只是一家公司,不是监管机构。但作为行业领先者,如果我们能够取得成功,并且大肆推广,那或许就能建立一个标准,让其他所有人因为羞愧而效仿。”
Deepfakes利用公开研究成果创造了免费软件,在媒体操纵领域掀起了一场革命。关于机器学习如何模拟真人身份的知识一直就在那里,他们只是把它做成了一款看得见的应用程序。
但以上新创企业用行动证明了一点:利用类似的媒体操纵技术谋利——或使用成千上万份照片或音频文件训练机器模仿人物或地点——或许能够带来实际效益。
与普通的Reddit用户相比,想要使用AI操纵图像、视频和语音的公司必须接受更高标准的要求(至少理论上是如此)。撇开其他不谈,这些公司知道自己必须盈利。要做到这一点,它们就得保留研究所有权,并限制最明显的使用途径。
“一方面是想成为良好公民,我相信这也有私心的成分在。”莱博维奇说道,“说到底,我想Facebook肯定希望自己不用接受国会质询。从商业和社会效益来讲,这都不是一件好事。重点不仅仅是为了行得正,如果有人滥用你的技术,你的生意就会出问题。最好的办法还是防患于未然。”
文 | Mark Wilson
翻译 | 李美玉
编辑 | 和星星
图片 | 快公司&网络
声明:本文来自快公司FastCompany,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。