■ 蓝盾股份高级研究员 江纬

人工智能之于网络安全而言,是一把双刃剑。深度学习、大数据、物联网等技术的发展,使得互联网行业正在从当前的移动时代逐步向人工智能时代过渡。人工智能在计算机领域内,也得到了愈加广泛的重视。在网络安全方面,人工智能则可凭借其强大的大规模运算能力脱颖而出,迅速排查筛选数百万次事件,以发现异常、风险和未来威胁的信号。人类在享受新技术带来的发展红利的同时,也要预防AI新技术爆发浪潮当中网络黑产的渗透。因为,相对于较为成熟的移动互联网生态,AI生态目前还未完全建立,尤其是在产业各个环节,还处于一个相对割裂的状态,这就意味着,网络黑产很可能有机可乘。

一、当前人工智能所要应对的安全风险

当前人工智能存在的安全风险主要包括以下几个方面:1. 数据安全风险,数据污染攻击;2. 模型安全风险,逃逸攻击;3. 代码安全风险。这些安全风险造成的影响包括了恶意输入导致的拒绝服务,信息泄露,系统劫持等,可能导致人工智能所驱动的识别系统出现混乱,形成漏判或误判,甚至导致系统崩溃或被劫持,并可以使智能设备变成僵尸攻击工具。

针对以上AI系统存在的安全风险问题,可采取以下几点安全措施:

  1. 软件应用方面应该处理好输入数据,如数据清洗,数据过滤等,对于人工智能的应用必须考虑到应用所面临的威胁。程序设计员需考虑数据是否可控,监测程序是否正常运行,并验证程序执行结果是否真实反应应用本来的目的;

  2. 在模型训练与模型预测过程中,采用更加健壮的算法,从而加强AI模型的健壮性,降低逃逸攻击的风险;

  3. 提高自身安全意识,增强人工智能的安全盲点的知识面。

二、未来人工智能在网络安全产业中的发展

1. 生成式对抗性网络

生成式对抗网络GAN(Generative adversarial networks)目前已经成为人工智能学界一个热门的研究方向,GAN的基本思想源自博弈论,由一个生成器和一个判别器构成,通过对抗学习的方式来训练,目的是估测数据样本的潜在分布并生成新的数据样本。在图像和视觉计算、语音和语言处理、信息安全、棋类比赛等领域,GAN正在被广泛研究,具有巨大的应用前景。

无论是无监督学习、半监督学习,GAN给我们提供了一个处理问题的崭新思路,就是把博弈论引入到机器学习过程中来。可以预见,GAN本身的算法以及看问题的角度,必将对未来设计算法、以及解决实际问题产生深远的影响。

2. 技术孤岛的统一

许多不同的框架在做同样的事情,如今,每一家从事机器学习的大公司都拥有自己的框架和其他开源解决方案。在单独的AI应用中,我们希望使用不同的框架,如 Cafle2, PyTorch和一些推荐系统的Tensorkow/Keras。合并它们需要大量的开发时间,它分散了数据科学家和软件开发人员从事更重要任务的注意力。解决方案必须是一种独特的神经网络格式,可以很容易的从任何框架中获得,然后开发人员能够轻松地部署,科学家可以轻松地使用,在这里我们推荐使用ONNX标准。ONNX的全称为“Open Neural Network Exchange”,即“开放的神经网络切换”。顾名思义,该项目的目的是让不同的神经网络开发框架做到互通互用。目前,Microsoft Cognitive Toolkit,PyTorch 和 Caffe2 已宣布支持ONNX。

3. 混合学习模型

不同类型的深度神经网络(比如GAN或DRL)已经在性能和广泛应用方面展现出了大好前景,适用于许多不同类型的数据。然而,深度学习模型无法像贝叶斯方法或概率方法那样为不确定性建模。混合学习模型结合了这两种方法,集每种方法的优点于一身。混合模型的几个例子是贝叶斯深度学习、贝叶斯GAN和贝叶斯条件GAN。

有了混合学习模型,就可以扩大可处理的商业问题的种类,包括具有不确定性的深度学习。这可以帮助我们提升模型的性能和可解释性,进而会促使得到更广泛的采用。预计会看到更多的深度学习方法获得贝叶斯方法,而概率编程语言开始会结合深度学习。深度学习是机器学习中一种基于对数据进行表征学习的算法。

4. 深度强化学习

这种神经网络的学习方式是通过观察、行动和奖励,与周围环境进行交互。深度强化学习(DRL)已用于学习游戏策略,比如Atari和Go,包括击败人类冠军的著名的AlphaGo软件。

深度强化学习是所有学习技术中通用性最强的,所以它可以用于大多数商业应用。与其他技术相比,它训练模型所需要的数据较少。而尤其抢眼的是,它可以通过模拟来加以训练,因而完全不需要标记数据。鉴于这些优势,预计明年会出现更多的商业应用结合深度强化学习和基于代理的模拟。

5. 自动化机器学习(AutoML)

开发机器学习模型需要一个耗时、专家驱动的工作流程,这个流程包括数据准备、特征选择、模型或技术选择、训练以及调优等。AutoML使用许多不同的统计和深度学习技术,旨在使这个工作流程实现自动化。

AutoML是AI工具大众化的一部分,让商业用户能够在编程方面没有扎实背景的情况下开发机器学习模型。它也有望缩短数据科学家用来创建模型的时间。预计会看到更多的商业AutoML软件包、更庞大的机器学习平台里面整合AutoML。

6. 语音交互入口AI

对于许多人工智能领域研究者来说,语义学习是下一个主要目标。随着技术的进步,图像识别和语音识别都取得了重大突破,而这将有利于计算机更加高效地理解和生成语言,人工智能时代,服务的入口主要是自然语言的语音交互,自然语言处理会是人机交互的主要模式。

人工智能会全面包围我们生活的方方面面,近几年来,许多商业巨头已经开发出自己的聊天机器人工具,比如:微软的 “小冰” ,Facebook旗下的Messenger和还有Google Assistant等人工智能语音助手,这意味着,人工智能入口的竞争会更加惨烈,而越早参与,获得越多的用户,胜利的几率就越大。

7. 可解释的AI

如今使用的机器学习算法种类繁多,这些算法可以在各种不同的应用中感知、思考和行动。然而其中许多算法被认为是“黑盒子”,它们如何得出结果方面几乎不为人知。当下可解释的AI蔚然成风,旨在开发这种类型的机器学习技术:在保持预测准确性的同时,生成更易解释的模型。

可解释、可证明、透明化的AI对于为技术赋予可信任性至关重要,并促进机器学习技术得到更广泛的采用。在开始大规模部署AI之前,企业会采用可解释的AI,作为一个要求或最佳实践,而各国政府在将来可能会将可解释的AI列作一项监管要求。

8. GPU助力AI

GPU,也就是我们所说的图形处理器,一直都是AI应用的主导硬件处理器,在图像语音识别、无人驾驶等人工智能领域,GPU正迅速扩大市场占比。

尽管有不少IT巨头和创新企业在尝试定制新的硬件架构,力图在性能、成本和功耗上与GPU竞争,很多企业建立了产业生态,可以肯定的是,GPU仍然会在相当长的一段时间内得到更广泛的应用。很多人都认为GPU的主导地位会被非GPU方案终结,例如FPGA或ASIC,但是非GPU方案都将面对两个艰巨的挑战:第一,能否实现量产,第二,整个产业生态链是否完整。目前,能够实现大规模商用、取代GPU地位的硬件尚未出现。

三、人工智能的场景应用与相关政策建议

人工智能技术正处于高速发展时期,缺少确定性,需要一定发展空间来逐步完善,在安全性、可解释性等方面的发展也相对滞后。因此,建议可以从专利制度、侵权责任制度和政府机构管制三个方面的结合来考虑,建立人工智能法律法规、伦理规范和政策体系,构建可以更好地促进可信人工智能创新发展的法制环境。同时,知识产权保护是建设创新型国家所面临的最重要的问题之一,处理人工智能与知识产权保护的关系,也需要有更加清晰的认识和处理。

对于蓝盾股份而言,人工智能技术已逐步应用在公司全线产品中,如边界安全线产品中的AI防火墙、云安全线产品、移动安全线产品、应用安全线产品等。

典型安全产品的人工智能技术应用包括:

  1. 边界安全,部署AI引擎于第三代防火墙,用于病毒文件检测;

  2. 态势感知,基于机器学习多端点感知技术的用户行为分析,以及流量分析;

  3. 蓝盾卫士,伪基站的检测,APK病毒文件检测;

  4. 蓝盾云,AI云端技术(ML即服务);

  5. 云检测与云防线,AI图像与视频识别技术与文本分析来处理敏感信息。

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。