跨镜追踪：拍不到脸也能精准找到目标人物

“今天很多APP上用刷脸登陆，它会让你眨眼、转头或者是张嘴……，大家在使用过程中可能会发现它不太方便，关键它让你觉得不太友好，为什么要做这些看起来很傻的动作？所以这就是我们现在要解决的。”

温浩

中国科学院重庆研究院人工智能联合研究中心副主任

云从科技联合创始人

为什么要做人脸识别？

前段时间大家看到一个新闻，在张学友的全国9场演唱会上，接二连三的有逃犯落网，一共抓了25名逃犯，其中有些是潜藏多年的逃犯。一方面说明张学友的号召力特别强大，但更重要的是幕后我们的人工智能技术。

公安通过在安检门和会场布设大量摄像头，实时分析每一位到场观众的面部。当逃犯出现在现场的时候，后台马上计算分析出来，通知我们的公安干警。

所以我们的公安干警可以在短时间内高效地抓到逃犯，它为公安省去了大量的人力和物力。这就是人工智能技术给我们的生活带来的保障和安全。

除了保障安全外，我们在各种场合如门禁、高铁、机场，都在大量使用人脸识别和其他技术。举个例子，在有些地方，我们也使用刷脸支付。

我们为什么要做人脸识别？当然不光是为了抓逃犯，我们是为了一个新的时代，叫做人类和人工智能协作共存的新时代。

大家可能对人工智能既熟悉又陌生，觉得是不是人工智能要代替人？我们其实是抱积极乐观的态度，它一定是和我们协作共存的。协作一定是从识别人开始的，如果机器连你是谁都不知道那它怎么和你协作？

那识别是从什么时候开始？我们认为应该是从计算机视觉开始，所谓百闻不如一见，很多时候我们对人的信息是来自他的脸，来自他的外在形象，这是一个最重要的信息。

我们70%的信息都来自于视觉，所以人脸识别是非常重要的视觉的入口，在各行各业已经得到广泛的应用。

比如通过刷脸支付，我们能很方便地买到一杯咖啡，不需要带卡，不需要带其他东西，也不需要记密码。

刷脸支付

在机场通过安检口识别之后，我们可以走到一个航显屏上，它可以实时地把我要去的目的地、航班、登机口都显示出来，同时可以指示我怎么走到登机口。

这就是非常好的展示人工智能帮助我们更好地生活的例子，不光是保障我们的安全。

智慧航显

如何排除光、角度的干扰

我们要达到让机器更靠谱地识别人的目的，第一个就是要解决人脸识别。

人脸识别的基本原理是通过摄像机拍一张你的照片，然后在后台计算机上分析。照片是有角度、有光线的，如何让计算机摆脱这些干扰因素？

如果是侧面和正面，会有怎样的影响？如果是逆光，人脸可能都看不清楚了，这时怎样把它识别出来？这些因素都是我们首先要考虑的。

光线变化

从2013年开始，我们做了一些实验性的工作。

首先，我们设计了一个大规模的摄像头阵列，这个阵列有91个摄像头，包括7层，我们叫7种俯仰角，以及13个不同偏转角度，我们叫偏航角。

这91种角度，91个摄像头，可以在毫秒的误差范围内同时采集到一个人不同角度的人脸，我们称之为结构化的数据。

多角度人脸采集阵列

它有别于我们在互联网上采集到的一些人脸照片，或者是我们自己拍的照片，因为它没有角度信息。我们需要知道照片是什么角度拍的，这个就是结构化。

它能够让计算机在短时间内通过少量的数据训练，对一个人不同的角度采取有效的分析。这个设备我们现在还在用，采集到上千万张结构化的人脸。

其次，我们模拟了各种各样的光源，强光、弱光、逆光、顺光，或者是太阳光，或是微弱的星光，或者室外的车灯、室内的照明灯，来看这种光源情况下，不同的光照等级下人脸的变化情况。

多光源模拟光环境

这是从角度和光源两个方面去识别人脸。

通过这些技术，我们今天可以把人脸识别的误识率做到亿分之一。相当于1亿次尝试冒充别人去验证，只有一次机会的概率通过，这基本上可以覆盖到绝大多数的应用。我们人眼的正确率大概是97%左右，它已经是99.8%了。

误识率亿分之一

识别“活人”

仅仅靠这个就可以把事情做好了吗？还不行。

举个例子，前段时间我们看到宁波有一套行人的闯红灯识别系统，它可以把非法闯红灯的行人实时抓拍并曝光在LED屏上。

结果有网友看到董明珠女士的照片曝光在曝光台。大家觉得很奇怪，为什么董明珠会在宁波，仔细一看发现原来是公交车上的车身广告。

车身广告有董明珠女士的人脸，摄像机把她精确地识别出来了，然后被认为是非法闯红灯了。

甚至还有交警在执法的过程中也被抓拍下来，也被认为是闯红灯了。

这种情况让人尴尬，识别没有错，但犯了一个最大的问题是这是不是真实的人脸，如果不是真实的人脸就应该排除掉。

这牵扯到另外一项技术——活体检测技术，它能够分辨是平面的照片，还是视频，还是一个真实的人脸，甚至是一个3D的人脸模型，都可以把它分辨出来，这是我们要做的第二项技术。

最早我们的技术是用在手机银行，或者是证券的远程开户，比如今天很多APP上用刷脸登陆，它会让你眨眼、转头或者是张嘴，这些动作是随机的，你不可能事先录制好，通过这些动作就可以判别出你是真人还是照片。

动作检测

但大家在使用过程中会发现它比较慢，快的话也要三五秒钟，慢的话可能要十几秒钟，有时可能不太方便。关键它让你觉得不太友好，为什么要做这些看起来很傻的动作？所以这就是我们现在要解决的。

第二代的红外双目技术。它通过两个摄像头，一个是可见光的摄像头，RGB的，还有一个是红外光摄像头，我们虽然人眼看不到，但它对我们的人脸是比较敏感的，它可以反射，可以被红外的摄像头采集到，但如果是照片，或者是视频、平板，它反射回来的照片是不一样的。

红外双目摄像头

这里有两幅图片，一幅是可见光的RGB的图像，一幅是红外光的图像。红外光本来是看不到的，我们把它通过一些计算展示出来。

可以看到这两幅图片是对同一个人脸同时采集的，如果是照片的话一定是有很大差异的，通过这种差异性的计算可以把真实的人脸和照片区分开。

RGB图像（左）红外光图像（右）

像这样的技术，我们已经用在刷脸支付，银行里的刷脸取款，包括在华南理工大学各种各样的校园e银行里面有很多刷脸购物的东西，它的设备上都有这样一个双目摄像头。

我们在内部也会做很多攻击，自己去攻击自己。比如通过挖眼睛、挖嘴巴等的人脸照片，还有各种各样的人脸的面具、3D模型同时进行测试，让计算机能够真正地分辨是攻击的还是真实的。

人脸照片和面具攻击测试

但是我们现在的技术还是平面的，最重要的是发展一个三维的、实时的生成人脸，我们采取结构光的技术。

它同样是红外光，也同样有至少两个摄像头，一个是可见光摄像头，一个是红外光摄像头，但是这个光跟刚才不一样，它是有结构的，比如说二维的点阵。

红外结构光3D成像

假如有一万多个二维点阵，它可以同时投射到人脸上，因为这些光有结构，它经过空间的传输后到人脸，人脸是有深度的，经过反射之后会产生形变，形变信息经过计算以后就可以得到人脸的实时的3D模型。

这个技术可以精确地实现人脸3D建模，当然就可以分辨出人脸是平面的还是真实的。这个技术可以用来实时地如通过一张照片就能生成你的人脸模型，他的侧面、正面、顶部和底部，都可以快速地实现。很多娱乐化的应用里也会用这样的技术。

实时3D人脸模型

拍不到脸怎么办？

有了这些技术之后，我们基本上可以比较精准地识别到一个人脸。但这还远远不够，很多时候摄像机是固定的角度，并不能拍到你的人脸，这时怎么办？

从2017年开始，我们在做这样一个技术叫跨镜追踪，不同的摄像机可以把同一个人的衣着、姿态、配饰都识别出来，然后仍然把你定位出来。

跨镜追踪

这个技术非常实用，如果用在抓逃犯上，可以更精准地通过少量的摄像机就能把目标人物检测出来。

当然它可以用在其他更多地方，假如说一个女孩在公园里跑步，公园主干道上有一些摄像机，这些摄像机在没有拍到人脸的情况下，仍然可以把这个女孩的衣着和步态识别出来，然后对她进行轨迹的跟踪，这就是我们的跨镜追踪技术。

这个技术除了抓逃以外，还可以用于帮助走失的儿童、走失的老人，可以实时地、快速地跟踪。同时，这个技术还可以用在商业里面。

三个目标：为了更靠谱地识别人

我们的人脸识别技术，或是行人识别技术，它都可以让我们比较精准地去识别，但我们仍在继续研究一些更前沿的技术，希望能够更加精准地去识别人，我们的目标是靠谱地识别人。

首先，我们的技术能不能做在前端，而不是一直在后端，要靠计算机、服务器实现，这样的话它的实时性、计算量都会比较复杂。所以我们会放在前端，包括到我们的摄像机、无人机上面去做。

第二，我们要远距离、大规模地识别。如果是上百人、上千人的场合，我们能不能快速地识别，而且当距离相对来说可能比较远时，照片的分辨率、每个人人脸或人体的分辨率会比较低，这时我们照样可以把它识别。

第三，识别人是最终目的，所以不光是计算机视觉，还有语音、手势，包括动作、唇语我们都可以去识别。做识别的目的是要识别人、理解人，最后是帮助人，所以它一定要实现一个完整的人机交互。这是我们发展的三大目标。

我简单地用三个视频来展现我们三大目标的发展。

第一个是科幻电影《头号玩家》，这里面就是用无人机直接快速准确地锁定目标，现在这已经不是科幻场景了，已经在实时地实现了。

和一些合作伙伴一起，已经通过无人机、摄像头，或者一些移动式设备就可以直接识别到我们的目标。它的难度在于它的计算量一定要放在前端的移动系统里面。

前端快速识别

第二个是我们在商业门店做的能快速地识别上百名顾客，能够把他们实时的人员分布图，每个人的移动轨迹，他对于哪些区域比较感兴趣、停留了多久，都可以分析出来。

这对于商家来说是非常有用的商业分析，他可以知道他的店里面产生了怎样的价值，每个人是怎样的规律，可以做实时的分析。

远距离大规模识别

第三个，我们通过多模态的技术，人机交互，包括语音、人脸、唇语、动作综合地识别人，然后实现一个完美的人机交互。

在这里，他通过不同的动作来控制地图，或者找寻他的目的地，最后在车上通过一些相关的措施认证它，最后实现一个比较完整的交互。

这三个目标达到之后，我们就可以最终实现靠谱地识别人的目的。

综合识别

最后，我想以卡斯帕罗夫的话结尾，他最近写的一本新书《深度思考》里面提到：

我们最终会被人工智能这样一个技术超越，甚至取代，这是我们社会正在发生的必然趋势，但是我们不应该害怕，我们应该努力地面对，努力地和它协作，最后达到一个新的高度，这才是我们应该去积极地思考和处理的态度。

我们相信，在座的各位也会在人工智能领域发挥你们的聪明才智，做出更多更好的新事物！谢谢大家。

声明：本文来自SELF格致论道讲坛，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

跨镜追踪：拍不到脸也能精准找到目标人物

为什么要做人脸识别？

如何排除光、角度的干扰

识别“活人”

拍不到脸怎么办？

三个目标：为了更靠谱地识别人

欧盟发布《通用人工智能业务守则》初稿介绍

国家卫健委办公厅印发《卫生健康行业人工智能应用场景参考指引》

美众议院AI工作组拟推行宽松的人工智能立法