英国《金融时报》中文网 数据新闻主编 史书华
Facebook在今年三月中被爆出剑桥分析(Cambridge Analytica)的数据丑闻之后,过了几天,哈佛大学(Harvard University)政治系教授加里•金(Gary King)接到一通来自Facebook的电话。
“你能帮我们研究调查2016年的美国总统大选吗?也许你可以告诉大众,Facebook没有、又或许真的改变了选举结果?”
于是,这份全球瞩目、Facebook却无法理清的数据失控案,调查的权力被交到政治科学家加里•金的手上。
在量化社会科学的学术社群里,加里•金无疑是全球重量级的顶尖学者。他在1990年代出版的调查方法专书,凡是攻读社会科学的研究生几乎是人手一本。
目前全哈佛只有26名教授享有校级教授(University Professor)的头衔,加里•金名列其中,被授予“阿尔伯特•韦瑟黑德三世校级教授”(Albert J. Weatherhead III University Professorship)。
而对中国读者来说,加里•金的距离并没有想像中来的遥远。
五年前,加里•金与学生玛格丽特•罗伯茨(Margaret E. Roberts)、潘婕(Jennifer Pan)统计了中国上千个网站的数百万网帖,通过庞大的样本,第一次以严谨的数据来展现中国互联网的审查样貌。去年,加里•金再次与罗伯茨、潘婕合作,根据网上泄漏的2341封电子邮件,对外发表“五毛党”在中国网络空间的实证研究。到今天,这两份论文仍被视为理解中国互联网发展的关键研究。“他们就像大象走过房间。”加里•金形容,老大哥的一举一动都会在网络上留下足迹。
打开加里•金洋洋洒洒的研究项目,地域横跨美国、中国到新兴民主国家,从方法论、大数据、新闻媒体到信息控制,都是他关注的重点课题。
6月初,加里•金在台湾大学参加关于中国研究创新方法的国际学术论坛,趁着空档,我们以数据、信息与当代社会为题,采访了加里•金。以下是整理后的访谈纪实:
问:您近来的研究,常关到注社交媒体的发展。当社交媒体主导了我们的日常生活,您觉得这对公共讨论产生了什么样的变化?
我们曾经担心社交媒体上的讨论不具有代表性,但现在它影响到那么多人的生活,前面说的讨论到底具不具备代表性已经不重要,平台本身就是个重点。
问:提到平台成为政治学研究的重点,今年四月份,全球最大的社交平台Facebook宣布,与您合作发起一项学术研究计划,调查Facebook对2016年美国总统大选、英国脱欧公投的影响。在爆发剑桥分析的数据争议之后,您是第一位外部学者能进入Facebook进行调查。能否与我们谈谈这个计划的源头?
对于要研究人、社会、文化、经济和政治等相关问题的学者来说,在进行定量研究时,会需要关于研究对象的数据。曾经,学术社群以为可以掌握世界上所有的数据,我们也许是通过调查或问卷来产生,也许是政府调查统计并将它提供给我们。但现在,尽管社会拥有的数据比以往任何时候都来的多,但绝大多数的数据却是被关在大企业里。学术社群要如何才能获取这些数据?这是一个大问题。
事实上,Facebook内部一方面希望提高股东价值,一方面他们也是一般人(里面也有我们哈佛政治的毕业学生),希望做一些对世界有益的事。 我们花了很长一段时间在努力弄清楚那里面的数据到底是怎么一回事,以及我们学术社群可以如何与大公司一起合作。
不过,如果大公司因为把内部受到保护的信息提供给学术社群,而影响到企业的竞争优势或涉及到法律争议,没有企业会想让自己陷入诉讼。因此,学术社群要把数据从企业拿出来推进学术研究,是一个非常复杂的过程。
问:剑桥分析事件有因此影响到你们和Facebook的合作吗?
有。甚至可以说是剑桥分析创造了我们研究团队与Facebook的合作。
在剑桥分析试图说服Facebook提供数据之前,我们刚好在与Facebook谈学术合作的可能性。 当Facebook还在考虑是否可以这么做的时候,数据丑闻发生了。
幸运的是,Facebook过了几天打电话给我。电话的另一头问我,可不可以与研究团队一起研究2016年的美国总统大选?也许我们可以告诉大众,Facebook没有、又或许真的改变了选举结果。如果Facebook做错了,这个错误到底是什么?该如何解决?
我回答对方,这项学术研究需要获得两项保证,否则不能进行:能够不受限制地发表最终研究结果、能够获得公司内部所有可以辅助研究的信息。通常外部研究社群只能得到其中一个保证,如果你没有企业内部的机密信息,你可以发表任何你想要发表的内容,如果你掌握到所有信息,企业不会让你毫无限制的公布结果。
没想到Facebook听完后,说:“明白。但我们Facebook要做什么?”
我因此想出了一个政治机制,就像一部宪法,使得彼此合作变成了可能。
我提出的办法是建立一套双层结构而不是单层结构。该结构的第一层是找一群顶尖的资深研究学者组成委员会(commission),让他们进入Facebook内部获得所有需要的数据信息,但要签署保密协议,不能对外发表任何东西。
这群资深研究学者的核心工作,是被允许进入Facebook之后,确认要研究的数据有哪些,抓取出来另外建立数据库。同时,委员会会设计一份需求建议书书(Request for Proposal, RFP),并向学术界公布,对外开放接受任何研究提案。任何研究学者因此都会提出RFP,申请访问待研究的数据库。
接着,这群资深研究学者会一一审阅RFP,并根据提案者过去的研究成果、伦理的适当性,选出最好的提案。
我们做的另一件事,是同时说服8个非营利组织提供研究基金。所有的资金会被聚集成一笔,由委员会决定资金最后要投入哪一个研究案。
也因此,被选出来的研究计划除了会被授予访问数据的机会,还会有一笔支持研究的资金。他们的研究不需要经过任何批准,可以直接发布任何研究成果。
这就是我所谓的双结构合作方案:研究群分成两组人,一组人可以访问所有信息和数据,另外一组可以不用得到Facebook的同意就能发布研究成果。
问:这份合作打算投入多少人力与资金?研究时程预计多长?
上面提到的8个基金会将会投入数百万美元来支持这项研究。
目前规划未来有一年的研究时间来检验我们的研究假设。但我们都希望这项研究计划能继续延长。
问:就您目前所知,Facebook会爆发这次数据争议,到底是发生了什么事?
法律要求一家企业要尽可能的为股东赚钱,身为公司的Facebook必须得做到。
Facebook同时根据他们的信念,经营了一家社交媒体公司。但他们也想知道什么才是正确的数据措施。我们的团队会帮助他们尝试弄清楚,同一时间,我们也希望在这次研究中,能够学习到关于社交媒体与选举以及民主的关系。
问:就您观察,社交媒体平台已成为新一代的信息控制巨兽吗?
我记得几个月前的某一天,有两个记者打电话给我。早上的记者说,社交媒体是推动民主的巨大力量,一个人只要在社交媒体平台上写点东西,潜在的数百万人都有可能看得到。这是历史上的头一遭,我们可以预期在任何地方都能看到民主的萌芽,是吗??
到了下午,另一位不同刊物的记者打电话来问我,社交媒体成为政府打击人民和控制信息流动的新方式,是吗?
有趣的是,他们两位都是对的。
问:以上这两个论点如何同时成立?
他们都是对的,因为信息是不断地来回流动。
政府会做政府做的事,人民会做人民做的事。政府必须努力维持权力,所以会试图阻止集体行动,试图在一定程度上控制住人们。
而人民想要影响公共政策、希望政府能在他们所在的社区提供服务。那人民要如何做到这一点?他们必须绕开政府的控制。
所以政府制定了更严格的控制措施,人们又通过不同的方式作出回应,两者不停地来回互动。
问:能否举些具体的例子来说明这样的信息控制和互动?
香港占中时推出的FireChat应用程序就是一个很好的例子。
在香港的雨伞抗议活动中,中国政府在当时追踪了抗争者。 由于手机每十五秒会发送信号到手机信号塔上,政府因此可以收集信号塔的数据,随时了解抗争者的位置。
而在当时,抗议民众发现了这一点,推出了一款名为FireChat的应用程序。FireChat通过蓝牙传播,信息可以不通过手机信号塔、直接从一部手机传到附近的另一部手机。这意味着你可以在没有政府监控的情况下,向任何人发送信息。人们因此逃避了政府的双眼。
然而,同一时间,疑似是中国政府推出了一个假的FireChat应用程序,除了会把信息发送回大陆境内,其他的功能与原本的FireChat完全相同。
然后,人们又意识到了有假的出现。这过程就像一场军备竞赛(arm race),来回互动。
问:您用军备竞赛来形容这样的互动过程,是建议我们可以用赛局的角度来看待信息控制?这意味着有可能产生均衡?
我认为最后比较可能出现混乱的均衡(chaotic equilibrium),甚至是没有产生均衡。从某种意义上来说,所谓的政治,就是想出创造性的行动去转变均衡点,推动少数走向多数。
问:在近几年的公开演讲和研究中,您谈了不少大数据和社会科学之间的关系。你如何看数据对当代社会的影响?
这是一个好问题。我认为政府当然会因此得到更多的信息,但人民也同时获得了更多信息。 就像中国官方目前有更多的动作去阻止维权活动一样,人民也知道政府打算阻止抗议。但如果人民希望从当地政府获得一些东西,他们可能会更加频繁地发起抗议活动。政府最初的举措是要停止抗议,现在反而像在创造抗议,这样的过程又再一次体现了军备竞赛的概念。我认为你前面说的赛局比喻很正确。我不认为整个过程会处于均衡状态,或者说,如果它是均衡的,那么下一步就是要脱离现状。
问:身为哈佛政治系的校级教授,我好奇您目前对美国民主或民主整体发展上最关心的话题是什么?
我最大的担忧是事情总会伴随着下一步的行动。我今天一直谈到军备竞赛的概念,但即使在军备竞赛中,如果其中一方突然获得核武器并使用它,彼此互动的路径可能会因此发生非常大的转变。我们或许都希望互动的参与者能受到一些限制、每个人都做出非常好的行动(一点就好)。
技术的变化是非常、非常的迅速。我们目前谈到的面部识别或是社会信用评分,这些技术可能是一件大事,也可能不是。最大的危险并不在于它们正在发生,因为这就是政治生活的一部分。最大的危险在于,因为有了新技术,其延伸出的行动会对我们产生非常巨大的影响,以至于在短期内会负面地破坏了一切。
问:最近除了面部识别之外,人们开始讨论另一种新技术,能通过人工智能变换人脸来制作假视频,实现“Deepfakes”(深度造假)。听说过吗?这会是您前面说的危险?我们可以如何面对?
我认为这是一个聪明的举动,人们会因此将它应用到各式各样的东西。我还没有分析它背后的数据,但我的猜测是,如果这是一个deepfake,我用肉眼看会无法分辨虚实,不过,如果经过统计分析,假如视频是通过计算模型而生成的,我们就有可能发现背后模型的存在,也因此可以进行预测。
接下来,像现在的Facebook和其他公司一样,如果一条新闻是假消息,人们会另外做标记,我们也可以通过贴标签的方式来判定视频是不是造假。但问题是,接下来还会发生什么?还会有人想出更好的造假方式,也许是推出伪装的演算法,专门欺骗其他用来侦测deepfakes的算法。你无法阻挡坏事发生,但总有方法可以反制。所以我们最应该要担心的是,另一方能不能根据变化快速地做出回应?
声明:本文来自FT中文网,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。