配备电脑视像软件的无人机可开启新式自动化空中监控,监测地面的暴力行为。这是来自英国和印度研究人员的一项成果,他们展示了一个无人机监控系统,该系统可自动检测出地面斗殴的人群。

2013年“波士顿马拉松爆炸事件”中,死亡杀人,数百人受伤,而这次事件也促使研究人员萌生研发这种无人机空中监控系统的想法。而直到“曼彻斯特体育场爆炸案”发生,研究人员才真正有了些进展。这一次,他们利用的是人工智能深度学习技术。

这个由辛格(Singh)及其同事研发的无人机监控系统还不完善。但是他们的努力表明,深度学习模式的认知能力可以与相对便宜的商用级无人机结合,也可以与云计算结合使用。他们于2018年6月3日在预览服务器arXiv上上传了一篇更为详细的论文,而且他们会参加2018年的IEEE国际计算机视觉与模式识别会议。

此次展示的关键部分涉及到利用深度学习运算法则,检测视频录像中的肢体动作,并识别暴力行为。为了创建一个训练数据集,研究人员招募了25个实习生,让他们在户外模仿各种暴力行为,如拳打,脚踢,勒脖,刀刺和射击,且用“鹦鹉” AR 无人机将这些动作从各个高度(两米至八米)拍摄下来。

这还不算完。研究团队还需要手动对视频录像中的人标注18个坐标。而此项工作属于劳动密集型任务且极其耗时,因为通常深度学习的训练过程需要一万到两万幅图像。研究人员想把训练数据降至两千幅分解图片,里面包含了五千个动作。

无人管理的深度学习神经网络可通过多层级的端到端人工神经元过滤数据,从而自动进行模式学习——如果你又足够的运算资源和训练数据,那么此过程在预测准确度上会有较好的效果。辛格的方案来自其剑桥大学的研究,此项研究聚焦的是寻找更流畅更有效的深度学习形式, 同时减少运算资源和训练数据。

辛格把前端第一层级的一些神经网络替换成了固定参数,再在后端运用监管学习。按照辛格的设计,这种变化有效地将一些深度学习进程替换为人机工程输入,且最利于训练神经网络识别不同的人体姿势。这可能影响整体的准确度,但是这样可以让分散式网络混合深度学习(SHDL)网络学得更快更多,且所需的数据和运算资源更少。

整个无人机监控系统依赖SHDL网络和两个标准的深度学习法则。第一个系统,被称为金字塔网络,它是对象识别系统的常见组件,针对视频录像执行检测人类活动的任务。第二个系统,被称作矢量支持器,它利用SHDL网络的肢体形态评估信息对人类的行为进行暴力与非暴力分类。

最初的测试结果表明,通过“鹦鹉”无人机将大量数据卸载到亚马逊云服务上,确实可令无人机监控系统实时工作。辛格在班加罗尔印度科学院和瓦朗加尔国家技术学院的同事负责该系统的无人机部分。

该无人机监控系统用红色标出暴力行为,用蓝色标出普通动作

但是,其准确性还有待提高。随着越来越多的人进入画面,此无人机监控系统的准确性从94%开始稳步下降。辛格表示,准确率的下降或许是由于人数增多,且画面中的人与无人机摄像头的距离较分散所致。也有可能在对人物动作进行分类时就出错了。

事实上, 画面人数增加导致的准确率降低不由得让人思考,在分析大规模人群行为时,该系统的准确率能达到多少。对大规模人群进行实时分析可能牵制系统功能,而且需要更多云计算资源和带宽。

而且,最初的训练数据集基于25名实习生的模拟动作,或许不足以反映大规模人群或恐怖袭击的真实暴力行为。这意味着,该无人机监控系统在真实情境中识别暴力行为的准确率还有待测试。辛格称,人们挥拳的方式五花八门,不限于一两个动作。

不过,研究人员在继续努力。他们在争取让印度政府允许他们在即将到来的两个音乐节期间测试其系统。此类实景测试有助于他们发现该无人机监控系统的局限性,预计实景出境人数过千,且人群密度大。(去年在音乐节上就有一名学生被刺。)

辛格还在开发深度学习模式,意图实现人群建模。他还要把此系统的对象识别功能扩展为精准识别携带枪支或包裹的人。例如,如果实时监控系统能在人群中追踪携带包裹的可疑人物,或许可在“波士顿马拉松爆炸案”之类的惨案中发挥作用。

辛格及其同事或许不会止步于让系统识别特定的暴力动作,如刀刺或脚踢,他们还可能关注潜在暴力行为的识别。辛格想看看这样会否带来更实用的效果。

如果能将此无人机监控系统的精确度提升到符合商业化的需求,那么辛格仍然期待依靠人力来检测可疑活动或潜在的暴力行为。自动化的监控系统有助于缩小保安查看的i,所以人脑和眼睛就可以快速对情况作出合适的判断。

辛格称,此系统并不会完全取代人的作用。

本文由安全内参翻译自IEEE

声明:本文来自安全内参,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。