摘要

在“大数据”时代,开源信息对于情报相关目的的潜在价值被广泛认可。最近,这个空间的进步越来越多地与软件相关联,这些软件可以扩展我们通过自动化过程收集、过滤、相互关联和操作数据的能力。而走向自动化的趋势既创新又必要.. 然而,以技术为中心的努力以精心设计的算法取代人类分析师,从收集到综合和分析信息,风险限制了OSINT的潜力,而不是增加其范围和影响。有效的OSINT系统必须精心设计,以促进互补性,利用优势,减轻人类分析师和软件解决方案的弱点,从两者中获得最佳贡献。本文借鉴认知工程领域的见解,在概念层面上考虑如何实现这一点。

导言

2013年8月,叙利亚大马士革郊区的姑塔农业带发生了大规模化学武器袭击。联合国秘书长潘基文称这是自萨达姆·侯赛因以来对平民使用化学武器的最重要的证实。1988年,一个包括禁止化学武器组织(禁化武组织)和世界卫生组织(世卫组织)专家在内的联合国特派团在哈拉布贾使用了这些武器,迅速证实在攻击中使用了神经毒剂沙林。这一事件是据称由四面楚歌的阿萨德政权发动的一系列化学武器袭击中的最新一次,但姑塔事件在规模上使过去的事件相形见绌。初步评估估计,约有1400人在袭击中丧生,其中包括400多名儿童。

针对古塔事件,美国、法国和联合王国等国政府公布了情报评估,记录了一些

反对阿萨德政权的证据。这些报告很重要,因为它们有助于推动各国就叙利亚军事干预前景进行讨论。这些报告还值得注意的是,它们依赖公开来源,即从相关的公开来源获得的信息,无论其传播媒介如何。事实上,这是公开来源的作用在如此重要的情报评估中得到如此广泛赞扬的第一次,它提供了对当前关于开放来源信息在情报部门内外的作用和价值的看法的洞察。例如,美国的评估承认它依赖于“大量的开源报道”,包括“视频;证人账户;大马士革地区至少12个不同地点的数千份社交媒体报告;记者账户;以及高度可信的非政府组织的报告”。

开源信息在情报方面的潜在价值现在已得到广泛认可。在过去20年中,技 术发展促进了在线可获得的信息数量的急剧增加,以及信息发布方式的重大转变。互联网用户不再简单地消费信息,他们生产信息,使用社交媒体与潜在的全球受众接触。一方面,这为寻求获得或保持调查或分析优势的组织提供了机会。在“大数据”时代,网上提供的大量信息在恐怖主义和核扩散等领域提供了前所未有的分析机会。另一方面,这一庞大而流畅的信息环境带来了巨大的挑战:信息的数量、格式、可访问性和质量都是不断变化的变量。

一个开源的分析师也许可以被比作一个淘金者,仔细地筛选过滤互联网中的信息垃圾。科学,使用计算机化的工具来收集和分析OSINT带来了特殊的挑战。与情报相关的信息在性质上是极其多样的,而且具有高度的上下文特异性。在一个上下文中有价值的信息在另一个上下文中可能是微不足道的。此外,除了大数据的其他用途的趋势分析特征外,情报或其他调查工作往往试图确定每一项可用的、相关的数据;魔鬼几乎总是在这里的细节。此外,必须评估每一份文件的可信度,同时考虑到作者的动机和专业知识。在未来一段时间内,做出这些类型决策所需的细微判断可能超出了即使是最先进的软件解决方案的能力。

在这种背景下,本文有两个目标。首先,分析探讨了在信息过载成为常态的时 候,那些试图利用开源信息进行情报的人所面临的问题。为此,我们考虑“大数据”现象带来的机遇和挑战如何影响这一活动领域。尽管近年来开源信息在情报中的作用受到了相当多的学术关注,但关于软件工具如何能够和应该纳入开源收集和分析的彻底、批判性的讨论却很少。第二,我们借鉴认知工程领域的见解,为讨论如何在概念层面上设计有助于互补、利用优势和减轻人类分析师和软件解决方案的弱点系统,从综合系统中获得最佳贡献提供参考。认知工程领域提供了丰富的经验,在设计和理解人机合作关系,但尚未考虑或应用在情报背景。

开源情报的本质

寻找那些有助于揭示特定问题或谜题的信息。当然,一个专注的人将分析师的思维方式与主题专业知识结合起来,并了解各种工具和技术,这些工具和技术可以使在线搜索更有效率,这可以从乙醚中吸取很大的教训,使用“探测器”的方法。但进展不可避免地缓慢,分析师正与大量以惊人速度增长的信息作斗争。因此,这一空间的进步最近越来越多地与软件联系起来,这些软件可以使用自动化流程或可视化功能来扩展分析师收集、过滤、相互关联和操作数据的能力。

然而,尽管开发大型数据集的工具已经成功地应用于经济和自然等领域利用开源信息来支持情报活动和其他调查研究并不新鲜;情报工作长期以来依赖于秘密和公开可用信息的结合。 尽管为情报目的利用开源信息的做法已经确立,但对OSINT的性质始终存在一定程度的混淆。开源情报是否只是描述各种来源的另一种方式,作为传统研究过程的一部分?这里的方法和贡献有什么不同?许多混乱与这样一个事实有关,即正如迈克尔·华纳所说,情报一词通常被理解为“各国秘密地支持其减轻、影响或仅仅理解其他可能伤害它们的国家(或各种敌人)的努力”。因此,OSINT这一术语似乎是一种矛盾;开源前提与“智能”这一术语所引起的秘密不协调。

因此,在考虑“BIG数据”相关发展的影响之前,首先必须澄清我们所说的开源

情报的含义,以及它如何促进更广泛的情报功能。这里要注意的第一点是,开源情报是传统情报链的一个孤立点,它的定义是一些争论的主题。一个有用的起点是Wirtz和Rosenwasser提供的定义,他们将(OSINT)描述为“从任何人都能从公开获得的信息中获得的洞察力”

通过公开、非秘密或非秘密手段访问,以满足情报要求。他们接着指出,“使用这一宽泛的定义,即专有但通过法律手段获得的信息。某些执法或行业数据属于开源情报的范畴“。除此之外,我们将强调OSINT的政治或安全意义,并认为收集过程的合法性应与强有力的道德方法相联系。值得注意的是,这些信息不是由从事收集工作的行为者自行生成的,而是受特定信息获取选择和预算参数的制约,这些选择和参数因个人和组织而异。

正如叙利亚的上述例子所表明的,OSINT已成为情报工作中的重要信息流。艾伦.杜邦(Alan Dupont)在2003年指出,美国情报来源的估计数量在40%到95%之间,尽管80%是最经常引用的数字;最近的文章也提出了类似的说法。正如我们将在下面讨论的那样,在公共领域可以获得的信息量巨大而且不断增加。但OSINT除了作为情报分析员的信息来源之外,还提供了重要的优势。在杜邦看来,开源情报的一个更重要的优点是成本效益:可以相对容易地挖掘和利用来自外部和内部情报机构的专门知识,从而“腾出稀缺资源用于OSINT贡献能力较低的任务;”同样,开源信息更容易传播,以促进合作和报告。

一个实际的例子是Monica Den Boer,他在2015年的一篇文章中解释说,欧盟国家和机构最近增加了他们通过限制访问网站共享的开源信息的数量,因为它可以在不违反法律的情况下收集。显然,长期以来,从公开来源收集的信息有可能对生成情报的更广泛进程作出重大贡献。如果有足够的资源----不仅是财政资源,而且还有人力、结构、组织和信息资源----收集和分析公开来源信息可对许多类型的调查活动作出重要贡献。卫报的报道提供了新闻界最近的一个例子。卫报记者仔细查看了庞大的“维基泄密”数据集,以隔离与伊拉克使用简易爆炸装置有关的信息。据《卫报》称,2004年至2009年期间,大约发生了7500起与简易爆炸装置有关的袭击,另外发现并清除了8000起未爆炸的简易爆炸装置。利用这一数据,《卫报》记者得以对简易爆炸装置的使用随着时间的推移发生了变化,以及该国的哪些地区进行了可视化展示。那么,以太最近发生的巨大变化对开源分析师的工作意味着什么呢?“大数据”兴起的意义是什么?

「数码数据」:机遇与挑战

近年来,“BIG数据”一词已成为有关在线开发的各种讨论中的热门词汇。然而,尽管它在学术和流行的话语中无处不在,但这个词却鲜为人知,而且往往定义不清。它已经成为一种流行的方式来指近年来在线可用数据数量的急剧增加。但这个概念所代表的不仅仅是大量的信息。McAfee和Brynjolfsson认为,这个概念包括三个核心因素:大小、品种和速度。由于涉及的数字惊人,数量问题也许是大众评论中最经常强调的问题。根据IT分析公司2014年发布的预测,“数字宇宙”的规模每两年翻一番,到2020年将达到44兆字节。事实上,对于KevjnLim来说,大数据现象背后的主要驱动因素是数字化过程。在2000年,世界上25%的存储信息是数字的;到2013年,超过98%。然而,对于理解“大数据”的性质来说,同样重要的是数据源的多样性:“大数据以发送到社交网络的消息、更新和图像的形式存在;传感器的读数;手机的GPS信号等等”。此外,“许多最重要的大数据来源都是相对较新的”。直到2000年代中期,Facebook和Twitter等社交网络才开始获得真正的势头。最后,许多人认为数据创建的速度甚至比大小更重要。在这个速度问题上,McAfee和Brynjolfsson指出,“实时或几乎实时的信息使公司能够比竞争对手更敏捷”。

这一论点源于商业背景,但逻辑适用于一系列领域;对实时信息流的访问开辟了前所未有的分析机会。从情报的角度思考大数据,Degaut在他所说的“信息革命”环境中确定了开源情报工作的几个重要特征。这包括互动,或将看似孤立的行动或事件联系起来的能力;新的和未知的行为体和信息来源激增,增加了评估可信度的健全程序的重要性;以及反馈,这意味着决策者在短时间内从许多方面获得信息,而“传统”情报机构将与之竞争。Degaut还将此与“速度”问题联系起来,指出虽然大数据确实促进了新闻和其他信息的近实时全球传播,但它也鼓励了决策者的期望,即他们将在近实时获得相关的、经过分析的情报。大数据现象给政府和私营部门的以信息为重点的活动带来了相当大的机遇和挑战。例如,考虑一下与社交媒体相关的分析可能性,可以说是最著名的“大数据”类,当然也是“我们所拥有的关于人和社会的最大信息”。

例如,广告公司可以从社交媒体和互联网平台购买使用数据,然后使用量身定做的分析软件来确定可能提供商业优势的趋势。这种分析并不寻求识别特定的人或活动,而是将大量离散的数据事件集合起来,以描述,例如,随着时间的推移,购买模式。社会学家、人类学家和其他科学家也使用了这一点研究人类行为模式、经济因素等的数据。

在这一点上,Omand、Bartlett和Miller认为,基于从社交媒体来源获得的数据的研究可以有助于理解诸如“暴力的阈值、指标和允许条件;激进化的途径;思想如何形成和变化的分析;以及调查在线和离线之间的社会技术交叉”等现象。对于这种综合研究来说,互联网带来的可能性几乎是无穷无尽的,而且每天都在扩大。

此外,软件公司开发了强大的工具,可以执行收集、 处理和分析,使这种研究能够快速进行。20世纪20年代中期,学术界就技术进步对收 集、分析和生产情报的影响发表了文章,预测了这方面的一些潜力。例如,杜邦指出了“高速数据处理”发展的重要性,他哀叹“学术上对情报系统的技术、管理和整合所发生的变化的关注甚少,而这些变化[将]成为任何“军事事务革命”的基础”。然而,没有人能够预测到信息流的增长规模,也没有人能够预测到现实与网络世界之间的界限在多大程度上会因我们愿意将自己投射到以太中而变得模糊。

与此同时,这些机会因重大挑战而受到抵消。从技术的角度来看,这些庞大数据集的规模和它们越来越“非结构化”的事实-来自不同的、往往是非常规的来源,因此,不共享共同的组织结构-使得它们很难使用传统的数据库和软件技术来处理。需要定制的数据分析方法来有效地汇总和管理数据。这导致了另一个问题:“数据世界中的技术景观正在迅速发展”,从而有效地发展利用大数据的分析潜力需要一种灵活、响应和创新的技术方法。除了这些技术问题外,参与这一空间的行为者还必须考虑数据收集和分析的法律和道德影响。

对于情报机构和其他调查组织来说,上述分析机会同样有效。例如,Lim认 为,“大数据”在情报分析中的大部分效用在于趋势分析的可能性,以帮助确定事件或模式正在发生或已经发生。量身定制的算法还可以“与历史数据相比,揭示大型数据集所包含的异常,适用于反恐和其他警察、安全和国防情报场景。算法“爬行”通过数据源识别不一致,错误和欺诈”。

除此之外,现代通信技术立即将来自世界各地的新闻报道带到调查员的办公桌上。私人拥有的卫星拍摄了成千上万的地球图像,可以购买和分析。数据库提供的信息可用于评估贸易流动和寻找与扩散有关的贩运。人类活动正在被记录下来,这些记录正在公开,其速度远远超过历史上任何其他时间。所有 这些发展都为分析员或调查员打开或扩大了查询渠道。然而,还有其他挑战需要考虑。其中的主要问题是难以在上一节中说明有针对性地收集信息。如果我们继续以趋势分析为例,这种方法在识别模式方面的价值也可能受到限制,特别是在努力寻找众所周知的“大海捞针”的背景下当最终目标是识别开源中可用的每个高度相关的数据位时。趋势分析提供的大图片视图可以阻止分析师看到构成情报马赛克的离散信息片段。

与此密切相关的是数量带来的挑战。一方面,分析师可能会找到更多的信息,但另一方面,价值的掘金被越来越多的无关数据所包围。这一点也联系到一些由“BIG数据”引发的新问题,特别是关于客观和主观知识的区别和比较价值。更多的数据与更好的数据不一样,也不会自动导致更可信的结果。例如,Twitter用户不包括具有统计代表性的全球人口样本。现有数据数量的增加 并不意味着需要“主观”解释。事实上,Hollnagel和Woods认为,“相信更多的数据或信息会自动导致更好的决策,这可能是信息社会最不幸的错误之一”。

机器的兴起:转向自动化方法

即使上面的简要概述也清楚地表明,“大数据”给开源分析师带来了无数的机遇和挑战。我们认为,分析人员是否需要精心设计的应用程序的帮助来有效地利用这一海量数据是毫无疑问的。技术发展产生了“大数据”,它们也必须帮助发挥其潜力。相反, 问题是如何将技术最好地应用于手头的问题。如何将新的应用程序与已经收集的现有工具和信息结合起来?收养的成本和好处是什么?

在这种新的信息环境中,政府和私营部门最初侧重于加强收集活动。这里的例 子包括帮助提高互联网搜索的效率,以及从内部和外部的多种来源收集数据。然而,重点日益转向分析。关键在于算法软件能够利用机器学习的进步,并在一定的参数范围内操作,理解所收集的信息。前面的一点提到了私营部门公司分析社交媒体数据以指导营销活动的方式。

这一部门的另一个例子是自然语言生成软件的研究和开发,它使人们能够从以太所收集的大量数据集中得出连贯和相关的叙述。这一技术反过来又被美联社和福布斯等媒体公司使用,使他们在某些主题领域可以制作的故事数量增加一个数量级,从而获得更大的收入。在这种情况下,所谓的“机器人记者”可以提供接近实时的报道,并为来自不同人口统计的读者生成个性化的有针对性的故事。最终,这种自动化方法的应用有助于媒体组织在24小时新闻背景下渴望的无所不在和现场领导的感觉。

显然,对情报机构的影响很大。能够收集和理解信息的自动化方法可以成为分析工作的强大力量倍增器。在理论上,这些工具提供的扩展分析范围允许提高上下文意识,而数据相关性的潜力可能提供某种预测措施的可能性。IARPA(情报高级研究项目活动)OSI(开源指标)方案,美国情报机构于2012年推出,是这方面的一个很好的例子。OSI方案力求通过自动分析各种开源信息,包括专利、科学和技术信息、社交媒体、搜索引擎查询、公共网络摄像头、卫星图像和媒体,制定预测重大社会事件的方法和手段。OSI为各种项目提供资金,这些项目利用人工智能工具和概率逻辑等概念,预测诸如“内乱、政治选举、 经济危机和疾病爆发”等事件。

其中之一是EMBERS(使用代理人的早期基于模型的事件识别)项目,这是一个工业大学伙伴关系,旨在“击败新闻”,其系统旨在“持续监测数据来源24x7,挖掘它们以产生新的趋势,并将这些趋势处理为预测”。EMBERS项目特别注重试图预测10个拉丁美洲国家的内乱,但如果成功,这种方法可能会在其他地方应用。

显然,需要精心设计的应用程序来有效地利用开源信息的泛滥。但算法进步的意义远远超出了收集和分析的应用过程。这一明显的技术转变也提出了一些重要的问题,这些问题触及了OSINT被理解为是什么的核心。

在“大数据”时代,对OSINT的传统理解是否仍然相关?OSINT的未来是否完全在于自动化?分析师的角色是否随着每一项技术进步而减弱?这些问题的答案并不立即显而易见,尤其是因为一些关键的核心问题往往被错误的二分法所掩盖。

随着“BIG Data”的兴起,人们对包括收集在内的端到端技术解决方案的概念或愿望应运而生,加工和分析。这反过来又有效地利用了开源分析作为分析师和算法之间的选择。在考虑OSINT时,有一种强烈的诱惑,认为只有在精心制作的算法取代大多数OSINT企业的人类,从信息的收集和排除到不同数据流的集成和综合,它才能保留和增加其价值。

然而,这个技术专家的逻辑有一个根本的缺陷:软件解决方案还不能复制人类判断的复杂过程,也不能复制来自深层主题专业知识的微妙洞察力。在这一点上, Hare和Coghill指出,人工智能的快速发展领域正在认知活动中取得长足的进步。

谷歌人工智能部门最近在编程一台机器以在没有人类玩家帮助的情况下掌握中国围棋游戏方面取得了成功,这是这方面的一个很好的例子。在开发一个从事tabula rasa学习的代理时,该方案成为自己的教师,不需要人为干预,据称该方案“不再受到人类知识的限制”。然而,这里的进步被超越特定和高度结构化领域的挑战所抵消。Hare和 Coghill令人信服地争辩说,直到他们所说的“人工一般智能”被开发出来——他们预测这在未来仍是几十年——人类仍然需要产生假设或产生复杂问题的潜在答案。

在短期内,分析师将越来越多地使用计算机来测试假设,利用“工具组合来构建模型和询问情报数据”。简单地说,“大数据的力量并不能消除对视觉或人类洞察力的需求”。

分析师与算法

在最近的一篇文章中,Kevjn Lim简洁地总结了自动化方法的优缺点,指出“大数据分析将调查的重点从因果关系转移到相关性”。大数据工具可以为战略趋势和异常提供新的见解,但可能很少揭示它们发生的原因。软件包正在不断改进,以操作更多的可用数据,但Lim令人信服地认为,“这些平台可能是强大的,即使假设数据点都是地理位置和时间标记的,它们仍然要求分析师具体知道该寻找什么”。在Lim看来,大数据分析显然是一个力量乘数,但它们必须补充(甚至仍然服从),而不是取代“主题专长和因果关系驱动的理论模型”。

事实上,对大数据的利用增加而不是减少了对人类判断和专门知识的需要。林认为,“如果人类主体的波动性给地区研究专家带来认知挑战,那么纳入大数据比以往任何时候都更需要人类直觉的更大回旋余地和“判断标准”。

必须指出,这一论点所依据的逻辑已经流传了一段时间。例如,十年前,杜邦就提出,“如果21世纪的情报收集很可能由智能机器主导,那么情报评估仍然会反映人类头脑的洞察力。任何数量的原始数据都不能取代有洞察力的人类分析师,他们能够识别事件、行动或趋势的关键政策或业务意义,这些可能隐藏在大量混乱和矛盾的信息中”。

然而,大数据的兴起,再加上我们捕捉和询问这些海量数据的能力的进步,已经产生了一种以技术为中心的文化,期望几乎完全植根于技术进步。人的因素对OSINT的重要性已经被削弱,在这种新的环境中,很少注意解决这种不平衡的影响。

存在多个例子,过度依赖算法已经提出问题或导致失败。其中最著名的是谷歌流感趋势(GFT),这是2008年发起的一项计划,目的是在美国疾病控制和预防中心 (CDC)之前几周预测流感爆发,从而提供潜在的拯救生命的见解。利用谷歌搜索数据,GFT试图将用户查询与流感病例联系起来,以便“预测”倾向的变化。然而,在七年的运作中,GFT错过了多个非季节性传染病,而“持续高估流感流行率”。

这些失败归因于“大数据傲慢”和谷歌搜索算法的商业动态,GFT将其图像交换为“大数据的典范”,作为其局限性的体现,导致该方案在2015年关闭。GFT面临的挑战并没有对健康产生任何负面影响,因为治疗计划继续基于CDC 分析。然而,在其他情况下,计划不周的采用自动化方法产生了更严重的后果。在保险里例如,一些公司已经寻求采用自动化来加快处理索赔等过程。就AIG这一公司而言, 这也被视为削减人员成本和补偿该公司2015年遭受的巨大损失的手段。

然而,这种自动化的拥抱失败了,这在很大程度上是因为该公司主要侧重于节省成本的措施和减少人员数量,并且没有适当考虑自动化将如何与现有的工作流程结合和补充。这导致将自动化应用于不适当的领域,并采用尚未经过全面道路测试的软件。

此外,在某种程度上具有讽刺意味的是,自动化本来应该促进人员裁减,这使问题更加严重,因为减少工作人员意味着支持新的自动化工具一体化的分析人员减少。考虑到自动化方法的预期和私营部门在削减成本同时提高利润率方面的巨大压力,这种情况不太可能是AIG独有的。

在情报界也遇到类似的挑战,自动化分析技术的开发、采购和实施已成为重中之重。然而,它的潜在影响受到Couch和Robins所描述的“收藏家投资和支持其分析的工具的不平衡,使分析人员在进行评估时无法考虑到所有可用的来源”的限制。在这一时期,作者认为,扩大现有数据需要增加而不是相对减少分析师的数量。简单地说,“需要有工具来减少分析人员必须评估的材料数量,允许他们这样做专注于那些可能是最有成果的人“。

最后,Couch和Robins认为,“未来分析师的技能 可能[.]更多地集中于配置复杂的搜索工具,然后主题专家可以将他们的经验、直觉和人类判断应用到这些工具上”。弗兰克同意,并指出:“虽然机器在生产战略情报方面取代人类分析人员是不可能的,也许是不可取的,但分析师和机器之间的劳动力平衡在不久的将来可能会发生变化...分析技术应该尝试新的方法来划分人和机器之间的劳动力,以帮助分析师更好地利用他们可用的数据,检查未阐明和未经审查的假设,并普遍强调测试心理模型的广度和深度,以确保他们的分析努力和产品的完整性。”

关于自动化局限性的进一步见解可以从其他学科中收集。例如,亚瑟·库弗利 克等哲学家的工作强调了在考虑将完成任务的责任从人类转移到计算机时必须记住的其他因素。Kuflik考虑了在特定情况下可能被用来反对这种转让的两个论点:

第一, 当人类对人类设计的技术所能实现的东西施加限制时,“我们自己的有限性和易错性”;

第二,有某些个人任务(如解决一个谜题),计算机不适合执行。Kuflik还认 为,设计、编程或控制计算机的人对计算机所作决定的后果负有最终的道德责任,这是最近辩论的一个重要观点自主系统。计算机所做的决定是“可执行的,而不是根本的”。

这些责任、易错性和控制问题进一步强化了开源分析师持久意义的论点。那么,我们应该如何处理为情报或调查目的利用“大数据”的问题?如何将计算机科学的新技术发展与情报和调查领域的现有技术和方法结合起来?如何最大化分析师和算法的潜力?我们认为,对技术的关注和围绕大数据的炒作限制了对这些问题的思考和辩论。即使在概念层面,也没有多少努力来研究如何有效地整合分析人员和机器。特别是,有必要超越学科界限,考虑其他领域的研究可能为那些寻求最大限度地发挥OSINT潜在效益的人提供的教训。

认知工程和战略伙伴关系

在我们看来,这一过程的第一步是寻求对抗似乎正在出现的分析师与算法之间的错误 二分法。在情报领域与开源合作的人类分析师需要计算机系统、数据库和可视化工具的帮助,从他们每天面临的大量数据中提取有用的信息。然而,分析师的技能、专业知识和判断仍然是不可替代的。事实上,虽然这些属性的价值在过去可能已经得到强调,但它们现在既受到威胁,也比以往任何时候都更加重要,因为面对大量不断增长的数据,包括必须评估的相关数据,以便将开源信息最大限度地用于情报以及相关的目的。因此,从人与计算机之间的战略伙伴关系的角度来应对“大数据”和新的信息格局带来的挑战更有成效。

通过这种方式,这个概念似乎很奇怪,但这个概念在认知工程领域已经很好地建立起来,这里的发展与那些试图在收集和分析开源信息方面开辟新的领域有关。认知工程在20世纪80年代成为一个研究领域,因为计算机变得越来越强大,例 如在控制系统中,它们可能被应用的范围开始急剧扩大。伍兹和罗斯1988年发表的开创性论文认为,计算机技术“提供了新的机器能力种类和程度,大大扩大了在复杂的问题解决世界中协助和增强人类认知活动的潜力,如监测、问题制定、计划生成和适应以及故障管理”。

当时的主要问题类似于OSINT社区今天面临的问题,即如何“通过新的工具构建能力来部署可用的力量,以帮助人类的性能”。在这一领域获得动力的一个关键概念是“联合认知系统”,它强调理解一个由人类和计算机组成的系统作为一个系统的重要性。整个系统都有一个任务或一组任务要完成,系统的设计应该考虑如何最有效地完成这些任务,使所有组件得到最佳利用。

例如,这与理解“系统”是人类简单使用的一组技术不同;即将联合系统“瓦解”成其组成要素。工程师认为,系统设计的重点应该是功能而不是结构,以及共同机构而不是机构解体。如果精心设计,这样一个系统的性能可以“大于其每个部件性能的总和”。

国际象棋世界的一个例子生动地说明了这一点,在1997年世界冠军加里·卡斯帕罗夫(Garry Kasparov)输给IBM的深蓝超级计算机后,在一场名为“大脑的最后立场”的比赛中,机器已经占据了超过20年的主导地位。在他失败后,卡斯帕罗夫和其他人试图探索如何将人类的战略、洞察力和直觉与计算机在计算能力和“记住”细节方面的优势结合起来。这导致了“高级国际象棋”的发展,这是一种人与机器之间的伙伴关系,旨在“将游戏水平提高到前所未有的深度”,从而产生了“完美的战术游戏和高度有意义的战略计划”的游戏。

2005年,第一届自由式国际象棋锦标赛举行,人类和计算机团队相互竞争。然而,这次首届比赛的结果却让国际象棋界感到震惊。在众多“半人马”(给人机合作的标签)中,获胜的队伍“包括两个年轻的新英格兰人,斯蒂芬·克拉姆顿和扎克里·斯蒂芬(他们是业余爱好者,国际象棋排名在1400到1700之间)和他们的电脑”。这些经验较少、天赋较差的棋手获胜的原因很简单:“克拉姆顿和斯蒂芬擅长与计算机合作。他们知道什么时候依靠人类的智慧,什么时候依靠机器的建议”。

这个来自国际象棋世界的例子在需要有效集成方面具有很大的相关性,如果要 从人机系统中提取最大的好处的话。在设计联合认知系统时,边界“必须明确,无论是在系统与其环境之间,还是在系统元素之间...边界显然取决于分析的目的和[联合认知系统]的目的”。然而,在定义边界时,即在系统的人和技术要素之间分配功能,必须指出,“不能仅仅通过技术取代人的功能来实现功能分配,反之亦然,因为人和机器的功能有根本的差异,而且由于功能以比机械分解更复杂的方式相互依赖”。

《认知工程与决策》杂志最近的一篇文章列出了成功的功能分配的要求。我们 认为,这份清单为设计和实施分析师和计算机联合系统以促进开源情报工作提供了一个有用的模型。

首先,每个单独的系统组件或代理必须分配它能够执行的功能。例如,可以通过将系统的每个所需功能与每个代理的能力进行比较,并将该功能分配给最有能力执行该功能的代理来实现这一点。

第二,每个代理必须能够在现实的操作条件下执行其集体的一组功能。换句话说,单个代理不应该被分配比它们能够合理完成 的任务更多的任务,或者相互矛盾或干扰的任务。

第三,职能分配必须具有合理的团队合作能力。团队合作是关键,这不仅是因为它使代理能够完成他们自己无法完成的任务,而且也是因为它可以在代理之间协调任务。因此,团队合作应该被规划和促进。

第四,分配必须支持工作的动态。例如,这涉及到预期某一代理人所采取的对另一代理人所采取的行动有影响的行动。

最后,功能分配应该是经过深思熟虑的决策的结果,例如作为更广泛的工程设计过程的一部分。这种细致入微的方法为有效的人机伙伴关系提供了一个宝贵的框架,它全面利用计算机的处理能力,并利用这一能力来补充人类的属性,如判断,而不是用糟糕的替代方案取代它们。

OSINT的值

显然,正在开发的现有技术和工具在帮助情报分析人员最大限度地利用现有大量和迅速扩大的开源信息提供的机会方面非常有用。但是,对于应当使用哪些工具以及如何将这些工具综合起来的问题,必须采取谨慎、关键的做法。奥多姆警告说,“通过技术手段,特别是软件算法,努力做尽可能多的分析,系统设计者往往承诺的比他们所能提供的更多...更多。

关于什么可以和不能“融合”的现实主义,再加上年轻分析师更高的计算机素养,已经带来了进步。仍然强调“处理”软件,通常意味着相当程度的机器生成分析,不能取代分析师的大量脑力劳动和体力劳动。

那么,如何将自动化工具最有效地集成到OSINT过程中呢?这里涉及两个离散的问题:各种工具(包括新的和已建立的)的特殊属性和优势,这些工具可以支持分析师的工作;以及实施这些工具,作为有效的OSINT更广泛的系统方法的一部分。

在工具方面,值得注意的工具包括根据有针对性的搜索和从关键来源持续收集 信息,除其他外,使用日益完善的数据剪贴器,翻译外语信息,消除重复,并对来源 进行标记和索引,以便能够进行有效的内部搜索。工具还可用于识别和记录关键实体之间和不同信息来源之间的关系,从而使分析人员注意到有用的相关性和模式。

事实上,这种可视化能力可能有很大的价值,因为它们“记住”个人事实(例如两个实体之间的特定关系)和“提醒”他们的分析师。然而,在这一点上,必须指出,对软件的不切实际的期望可能是有问题的。可视化与分析不是一回事。在组织的责任领域具有主题专长的人类分析师,以及对组织过程和背景的理解,需要评估可视化的相关性, 并确定其内容对工作的意义。

正如前面所讨论的,开源分析师面临的一个关键挑战是信息过载。更复杂的是,研究表明,在情报过程中,即使是经验丰富的分析人员也可能很快将重点缩小到 一套特定的“他们分析所依据的文件”,从而导致关键信息可能被遗漏。自动化工具有可能在这里发挥重要作用,例如通过“探索性搜索,以使分析师能够更好地了解他们的样本如何与潜在可用的内容相关”。与此相关的是不同文档的自动分类从低到高的价值基于用户定义的标准,这当然可能因任务而异。这里的属性可能包括文档长度、写作风格、原始内容与复制内容的百分比、发布数据以及源的性质(官方与非官方)。

虽然对工具及其功能的考虑是重要的,但本文试图解决的更紧迫的问题是,如何将这些工具作为一个更广泛的OSINT系统的一部分来实现,该系统是健壮、高效和有能力满足特定组织的需要的。显然,这将根据目标和不同的组织而有所不同。

然而,当务之急是,具体行为者目前和未来的需要和做法推动了这里的决策进程。例如,这要求设计人员详细了解目前开发开源材料的日常程序,以及工作的分析和情报目标的更高层次背景。这一当务之急还需要开源分析员和收集者直接、持续地参与系统设计过程。

如上所述,任务分配的过程应该是彻底的、详细的和现实的。当这种考虑的方法不被使用时,各种陷阱都会出现。工作实践的变化就是一个很好的例子。将新软件集成到日常工作程序中可能需要对现有程序进行相当大的更改。这种变化很可能是一个积极的发展,但只有当它们得到适当的资源水平的支持, 包括培训,而且-非常重要-只有当努力的净结果是更高质量的分析或更多的高质量分析时。如果不考虑到这一点,就会导致分析人员花费时间执行机械任务,如标记文件,而不是分析其内容。更糟的是组织可以通过对工作实践的破坏而奋斗,只是为了学习一种新的方法,这种方法不会导致分析质量的明显提高。

实际上,设计一个将分析人员的技能与计算机处理能力相结合的系统,首先必须全面审查有关行动者的分析需要和目标。与此同时,还必须详细规划当前的工作流程和进程,以便更好地定位行为者,确定可从技术干预中受益的领域和任务、有利于人类分析师的再平衡或两者兼而有之。只有在此步骤完成后,才应考虑特定的新软件选项。

在设计一个新的或升级的系统时,认知工程的关键概念可能是有用的,特别是概念上的重点是功能而不是结构,以及共同机构而不是解体。认知工程文献中确定的适当功能分配过程也是有用的。在评估采用何种具体的计算机化系统时,决策者必须权衡各种工具的优缺点。现在有一个拥挤的第三方应用市场与情报分析员的工作有关。这些声称为开源情报挑战提供了强大的解决方案,尽管可能昂贵。

然而,正如先前在AIG的案例中强调的那样,将通用工具整合到现有系统可能是困难的。此外,专有软件的供应商通常采用“锁定”的方法,这使得很难在以后切换到竞争对手的软件包。或者,组织可以使用开放代码软件,这通常是廉价的,甚至免费,修改代码以满足自己的需要。或者他们可以开发自己的内部解决方案。这具有真正定制的优势,尽管它可能缺乏商业替代品的功能和分析能力。

实际上,组织可能会选择这些方法的混合,理想情况下,作为一个不断发展的系统的一部分,该系统能够在获得新的能力和信息环境变化时集成新的能力。

结论

在线信息环境的最新发展意味着基于软件的方法现在成为OSINT工作的核心内容。如果没有自动化流程的支持,分析人员将无法应对信息的泛滥。然而,尽管OSINT爱好者必须使用算法方法,但重要的是他们不要被他们淹没。

受过培训的分析师具有不能编码的知识、专长和判断水平。有效地利用开源信息需要我们融合分析师和算法的能力,即使我们继续尊重它们之间的界限。这一论点的意义是明确的,但学术界对如何最好地实现有效融合的问题的关注相对较少。

在本文中,我们试图通过借鉴认知工程领域的见解来推进这方面的思考。我们在这里关注的是,在概念层面上,从这一领域获得的经验教训如何能够支持OSINT系统的有效设计,这些系统利用机器和人类分析师的综合优势,同时减轻它们各自的弱点。

我们希望,本文将为这一领域的额外工作铺平道路,因为有相当大的进一步研究 空间,特别是在不同部门和受不同限制的组织环境中围绕OSINT流程模型开展的实证工作。只有通过详细了解分析师目前的状况利用开源信息进行调查或情报,可以根据他们的需要定制自动化工具。

作者:克里斯托弗·埃尔德里奇,克里斯托弗·霍布斯和马修·莫兰1

文章来源:这是泰勒和弗朗西斯在情报和国家安全领域于2017年12月13日发表的一篇文章的接受手稿,可在线查阅:

http://www.tandfonline.com/doi/full/10.1080/02684527.2017.1406677

声明:本文来自丁爸 情报分析师的工具箱,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。