本文选自中国工程院院刊《中国工程科学》2024年第1期
作者:沈艳晴,董鹏飞,张恙菁,陈仕韬,郑南宁
来源:基于事件相机的敏感生物信息隐私保护研究进展[J].中国工程科学,2024,26(01):202-215.
编者按
进入大数据时代后,随着科学技术的迅速发展和信息技术的逐步普及,人们享受着智能技术和智能物理系统带来的便利。与此同时,个人的信用信息甚至敏感生物信息被大规模收集和处理,成为一种宝贵的资源。相较个人的信用信息,个人的敏感生物信息,如面部信息、身体特征、虹膜特征等,往往没有得到足够的重视和保护。事件相机是一种新型的生物启发式传感器,为解决数据端隐私保护问题提供了全新的思路。
中国工程院郑南宁院士研究团队在中国工程院院刊《中国工程科学》2024年第1期发表《基于事件相机的敏感生物信息隐私保护研究进展》一文。文章从大数据时代的隐私泄露问题、事件相机在隐私保护中的优势两方面,深入分析了事件相机用于隐私保护的研究背景;系统梳理了传统的敏感生物信息隐私保护方法,进一步总结了强度图像重建、图像修复、视频重建等基于事件流的图像重建与修复新进展,完成了基于6种算法的图像重建及其结果分析,证明已有重建算法对纹理信息的恢复能力有限,反向验证了基于事件相机的隐私保护技术可行性。针对事件相机未来的规模化应用,提出了降低硬件成本、改进算法网络、从市场角度推动等发展建议,以期为事件相机的隐私保护深化应用提供基础参考。
一、前言
进入大数据时代后,随着科学技术的迅速发展和信息技术的逐步普及,人们享受着推荐算法、语音识别、图像识别等智能技术,无人驾驶、移动智能体、监控系统等智能物理系统带来的便利。与此同时,个人的信用信息甚至敏感生物信息被大规模收集和处理,成为一种宝贵的资源。相较个人的信用信息,个人的敏感生物信息,如面部信息、身体特征、虹膜特征等,往往没有得到足够的重视和保护。
针对敏感生物信息的隐私保护,目前有不少面向个人信息的隐私保护技术(如数据匿名化)研究。例如,在基于图像或视频的目标检测、行为分析、场景理解等任务中,大多数算法多对输入数据进行隐私过滤和模糊化处理,包括对人脸、车辆等隐私关键区域进行模糊处理,采用遮挡、加密等手段隐藏敏感信息。然而,这些隐私保护技术大多针对外部攻击而设计,并未考虑潜在的内部攻击,也难以应用于端到端的隐私保护。因此,数据端的隐私保护变得格外重要。相比可见光相机,激光雷达不会直接获得人脸、身体细节等个人身份信息的数据,而是主要关注环境和物体的形状、位置等特征,在一定程度上实现了数据端的隐私保护。
事件相机是一种新型的生物启发式传感器,为解决数据端隐私保护问题提供了全新的思路。近年来,事件相机技术快速发展,在很多视觉感知任务上可以取代可见光相机;在面部重识别等特定视觉感知任务中,既可以很好保护个人的敏感生物信息,又能够实现可观的任务精度和表现;甚至在部分场景下,基于事件流的算法比普通视觉算法更为简单。例如,对于扫地机器人在运行过程中的避障问题,事件相机得到的响应输出即对应着障碍物,而普通相机还需目标检测算法。也要注意到,从事件流中重建图像的算法可能会在一定程度上对事件流的隐私保护性能造成不利影响。
本文从数据端的隐私保护出发,讨论敏感生物信息隐私保护的必要性、事件相机的相关应用潜力,梳理传统敏感生物隐私保护方法、面向常见任务且基于事件相机的相应算法;比较基于事件相机的图像重建及恢复算法,探讨并量化分析造成的隐私保护攻击效果,以反向验证事件相机用于隐私保护的技术可行性。
二、事件相机用于隐私保护的研究背景
(一)大数据时代的隐私泄露问题
智能系统及智能技术在信息的采集、存储、传输、销毁等阶段,都可能导致隐私泄露问题(见图1)。① 智能系统普遍配置以彩色图像为输入的感知算法,用于环境感知与导航、人脸识别、行为识别与监控等。这类算法会造成数据采集过程的敏感生物信息泄露,将拍摄的图像信息与真实世界中的个人构建联系起来。室内移动机器人、室内监控可能被侵入者控制,用于主动非法监视并录制敏感区域。凡是有敏感生物信息输入的系统,均存在较为迫切的数据端隐私保护需求。② 数据存储设备或数据库可能没有得到适当的物理保护或存在安全漏洞,很容易被内部攻击者盗取数据或将数据泄露给未授权的人员,进而滥用采集的个人数据或个人身份信息。③ 数据处理分为数据传输、数据销毁两个阶段,隐私泄露会分别或同时在两个阶段中发生。在数据传输过程中,窃听技术可以截取数据包,不安全的公共无线网络、不加密的网络连接会使数据被截获和篡改。在大数据应用中,不同组织或机构之间开展较多的数据共享合作,可能在未经用户同意的情况下将数据分享给第三方(如其他应用程序、社交媒体平台、数据经纪商等),从而扩大隐私泄露范围。个人的匿名化数据在共享过程中也可能被重新识别和关联。在数据销毁过程中,不正确地处理废弃的存储介质、不彻底地删除数据,均可能导致数据泄露。
图1 大数据时代中的隐私泄露
如果数据没有进行隐私保护,用户信息可能被窃取并被用于非法或非道德的行为,而隐私保护是大数据时代中每个人的基本需求。隐私保护不仅关乎个人的隐私权益,也与经济社会发展的稳定性和公平性相关。如果信息技术企业、公共管理机构在处理数据时不能充分保障公众的数据隐私,将使不法行为难以监管、偏见及歧视现象增多。隐私保护又是建立信任的基础,公众只有在个人隐私受保护的前提下才会愿意共享数据并参与数据驱动的创新活动。因此,隐私保护是防止个人信息被滥用和不当使用的重要手段,需要在保护隐私的前提下开展相关的人工智能算法研究;需要尤其注重数据端的隐私保护,这将显著降低社会整体隐私泄露的风险和概率。
(二)事件相机在隐私保护中的优势分析
作为大数据时代具有高应用潜力的传感器,事件相机可在人工智能(AI)算法的隐私保护中发挥突出作用。从成像原理来看,事件相机像素电路的关键组件包括光感受器、变化放大器:前者响应入射光,生成与光强度成正比的电流并将之转换为输出电压;后者监测该输出电压的变化,产生反向且放大的输出电压。当变化放大器的输出超过预设阈值时,事件相机像素才会生成“事件”;1个“事件”包含光强度的增加或减少信息,通过数字输出来传送相关信息。
与传统相机的最大不同在于,事件相机不是根据固定的时间间隔来捕捉静态的图像帧,而是异步测量各个像素的亮度变化。事件相机可以自动检测并跟踪运动及行为,输出没有颜色和详细纹理的信息,不直接捕捉也不存储个人或物体的详细特征,可以自然隐藏敏感的视觉细节,显著提升原始数据的安全性。事件相机在低光照条件下的工作效率很高,能够记录快速运动,具有高时间分辨率(毫秒级)、高动态范围(≥140 dB)、低功耗、高像素带宽等特性,有效减少曝光成像产生的运动模糊,与动态识别场景、主流的智能感知算法需求相匹配。
一些基于隐私保护的感知算法已开始商业应用。韩国三星公司发布了基于商用动态视觉传感器的家庭监控摄像头,突出隐私保护和人为检测功能,适用于智能家居安全监控和事故检测(如坠楼检测、入侵者检测),还可由用户屏蔽特定区域。日本相关企业开发了基于事件相机的驾驶员和占用监控解决方案,融入了眼动追踪、头部姿势检测、眼镜 / 面罩检测、睁眼或闭眼检测等算法。
虽然激光雷达也能在一定程度上实现数据端的隐私保护,但因其获取数据在时 / 空层面具有稀疏特性,在执行多数事件相机、可见光相机可实现的任务(如手势识别、眼动追踪)上存在局限性。此外,激光雷达的成本明显高于事件相机,而事件相机将在量产后进一步降低成本。因此,激光雷达很难替代事件相机和可见光相机。红外相机、热成像相机输出基于热辐射的连续图像帧,展示物体的温度分布而不是可见光下的视觉图像,但和可见光相机一样面临着时 / 空层面稀疏性的问题,也与激光雷达一样不具有成本优势。
三、传统的敏感生物信息隐私保护方法
(一)基于人脸模板的隐私保护
在执行人脸识别任务时,传统的可见光传感器往往采集大量的非核心信息,尤其是与人脸纹理相关的细节;这些信息虽然有助于识别,但包含了丰富的个人生物特征,可能导致隐私泄露。理想的隐私保护技术应当只保留进行基本人脸识别所需的最少信息,排除可能泄露敏感生物属性的数据,以兼顾保护隐私、不影响人脸识别的目标。针对性提出了基于人脸模板的隐私保护技术,用于去除人脸模板中多余的隐私数据。
早期的研究多使用对抗网络、决策树等方式,往往只能在人脸模板数据中抑制单个或数个特征(如性别、种族等)。使用对抗网络来计算中间表示,可以用于预测目标标签,很难用于预测私有标签;采用基于3个子网络的整体架构,其中第3个网络充当对抗者以尽量“破坏”中间表示的匿名性。这种设计方式允许一部分网络专门用于预测目标标签,另一部分网络尽量从中间表示中提取私有信息,从而实现对抗性。
然而,人脸识别模板中含有众多的特征数据,仅依赖决策树、对抗网络等任务驱动的方法来逐一删除敏感信息是极为困难的。负面部识别方法中的负模板用于描述个体不存在的面部特征,从而实现无监督的隐私保护;采用基于最小信息单元的隐私增强人脸识别方法,利用面部识别、面部属性估计结构差异,只保留最小的识别特征,实现了隐私保护功能。
(二)基于去识别的隐私保护
随着信息技术的广泛应用,大量的传感器感知数据用于以人为目标的识别、路径追踪与预测等任务。这其中,识别具体个体的身份是多余的,泄露隐私的风险也依然存在。为此,基于图像的“去识别”策略开始受到关注,旨在彻底消除传感器采集的与个人隐私相关的数据,而不是仅去除人脸模板中的部分隐私信息。这类方法不考虑数据匹配需求,侧重在源头删除任何可能泄露个人身份的信息,以确保最大程度的隐私保护。
1. 嵌入式隐私保护
随着物联网、智能设备的普及,数据采集阶段的隐私保护变得更加重要。嵌入式隐私保护能够直接在嵌入式硬件上进行数据加密,确保数据在离开源头之前就经过安全处理。这意味着数据在传输、存储等进一步处理之前即得到初步的保护。在嵌入式智能相机上率先开展可信计算概念评估,将隐私保护机制集成至硬件层。类似地,在低功耗嵌入式平台上实现视频的去识别处理,且在摄像机上进行视频转换以增强安全性。
尽管在嵌入式系统上成功实现了图像隐私保护,但由嵌入式系统采集的原始数据仍包含完整的成像信息。光学层面的实时视频流遮挡技术可进一步提高数据在采集阶段的隐私安全性,在由红外相机、红绿蓝(RGB)相机、硅基液晶器件组成的原型相机上进行了测试。原型相机在捕获场景前将检测到的人脸进行光学隐藏,确保在物理层面上无法记录任何人脸信息,据此消除人脸相关隐私信息的泄露风险;进一步地,在成像过程中只对特定类别的物体进行成像,而对其他类别物体进行光学擦除。该方案能够为特定任务提供高效且保护隐私的成像方式,无需额外的计算资源;和事件相机隐私保护思路类似,但因设计过于复杂(需要根据不同目标物体的成像提出特有方案),很难像事件相机一样获得广泛使用。
嵌入式隐私保护的重要环节之一是应用算法部署,需要降低存储需求、提高运行效率、增强网络性能,因而面向事件相机的轻量化算法设计至关重要。例如,基于特征维度映射的基本原理,构建了嵌入式轻量化脉冲神经网络。
2. 可逆加密策略
应用嵌入式隐私保护方法处理后的图像或视频,往往会丢失原始的有效信息,适用与人脸信息无关的下游任务。例如,使用几何变换方法来模糊视频监控中的面部,将受保护区域内的像素移动到不同的位置,从而破坏图像中的视觉细节、相邻像素的关系。然而,该方法会降低图像质量,导致视觉效果严重扭曲。为此,采取基于联合图像专家组(JPEG)转换的“安全JPEG变形”技术,对选定的图像区域(如面部)进行定制化视觉操作,具备可逆性和较高的隐私保护能力,也能实现直观和个性化的视觉效果。
3. 面部编辑技术
在特定的应用环境下,研究者期望加密后的图像尽可能地保持自然,面部编辑技术应运而生。采用专有算法,对图像中的面部进行替换而非简单模糊或加密,在一定程度上维持了图像的视觉审美和实用价值,符合人的视觉习惯。近期,属性感知匿名网络通过编辑面部特征实现适度去标识化,即只对面部进行适当修改而非完全替换,保证面部的真实感;有别于传统的去标识化方法,能够更精细地控制面部属性的变化。
保留面部的重要线索(如表情)以供下一步的行为或情绪分析,可使加密后的图像仍有一定的实用性。在对敏感区域进行加密时,将原始输入图像(或选定区域)转换为具有卡通外观的抽象表示,可以降低生物识别的可能性并保留一些实用性,允许推断行为信息并感知动作。基于变分自适应滤波的面部去标识技术,保留了关键的面部特征(如眼睛、嘴唇),同时隐藏身份,更好实现数据效用与隐私保护之间的权衡。
(三)基于点云混沌加密的隐私保护
随着三维(3D)数据采集技术的发展,3D点云数据更易获取,为计算机辅助设计、医学图像处理等提供了新的可用资源。然而,这些数据可能包含敏感信息,如不采取保护措施将增加隐私和知识产权泄露的风险。近年来,3D点云加密研究逐渐受到关注,集中在混沌加密算法上。
对3D点云进行混沌映射加密,主要方案有两种:利用逻辑混沌映射产生3个随机向量,对每个随机向量进行排序,以此随机混淆3D点云的坐标;利用逻辑混沌映射产生由3×3旋转矩阵、3×1平移矩阵组成的4×4随机变换矩阵,然后将每个3D点混淆到齐次坐标中的另一个随机位置。后续的混沌映射改进工作较多,如使用二维(2D)猫映射生成随机置换矩阵。此外,也有研究使用两级或多级加密处理方法,如先将混沌猫映射产生的序列进行升序排列以打乱数据的坐标,后将混沌猫映射生成的序列按降序排列以再一次打乱坐标。
四、面向隐私保护的事件感知方法
配备环境感知算法的智能系统,如安防监控、家庭服务机器人、自动驾驶系统、人机交互系统等日益普及,加大了RGB图像 / 视频泄露隐私的风险。一般认为,事件相机具有完成涉及敏感生物隐私的多种感知任务的潜力,在更好保护敏感生物信息的同时,具有卓越的任务性能。在行人重识别、手势识别、面部分析等敏感生物视觉感知任务中,输入的RGB图像 / 视频都包含人的敏感生物信息和视觉隐私属性(如面部、虹膜、性别、种族、颜色、服装等)。对于行人重识别、手势识别,尽管基于RGB的方法并不依赖清晰的人脸等敏感信息来完成任务,但相关信息可能会被拍摄并收集到数据库中,构成隐私数据泄漏风险。对于面部分析,基于RGB的方法依赖获取的敏感信息来完成任务;相关任务属于动态识别的范畴,有着较强的时空相关性且不依赖纹理信息,因而使用事件流解决问题是值得探索的方案。
(一)行人重识别
行人重识别用于在不同场景、不同时间拍摄的多个不重叠视图中识别同一个人,在视频监控及安全监控、检测并跟踪可疑人员、智慧城市等方向上有着重要的应用潜力。然而,在公共场所大规模使用监控摄像头引起了公众对侵犯个人隐私的严重担忧。当不法分子恶意获取监控视频后,可通过监控系统追踪其他人,会给公众的人身安全带来极大的隐患。
大多数基于RGB图像的行人重识别方法需要借助外观特征,但不同时间的光照条件、天气条件,不同的服装可能导致同一个人的外观显示出不同的特征,增加了使用RGB图像实现行人重识别的难度。为此,尝试采用一些算法以从步态等行为特征中提取个人特征,避免纹理信息对处理结果的影响,但RGB图像存在频率较低、动态信息不足等固有限制。在不采集纹理信息的前提下,原始事件流可以记录轮廓信息和行为特征,而异步事件流中包含的运动线索较RGB更丰富和更充分。现有的基于事件流的行人重识别方法主要依赖步态信息、动态面部特征。
步态识别旨在根据人的行走模式确定其身份。当其他生物特征不可感知时,步态提供了在远距离或低分辨率条件下的识别可能性,也更难伪装。利用运动一致性去除噪声,使用深度神经网络作为分类器,以四通道事件图像作为输入来识别步态,明确了噪声事件流用于步态识别的可行性。受基于RGB图像的步态识别方法的启发,光流可作为输入对网络进行步态识别训练。考虑到人体不同部位对步态的影响有差异,身体部位检测、姿态估计可辅助支持识别任务。基于图的卷积网络可用于提高步态识别的准确性;卷积神经网络(CNN)获得广泛应用,将事件累积成帧,再经过极坐标变换处理后输入CNN中。
也有研究利用动态面部信息(如面部动作、眨眼模式)来推断可识别的特征,如空间 – 时间的单流膨胀3D CNN具有短时间面部动作条件下评估事件流以识别身份的能力。这项工作验证了面部动作对人脸身份分类、身份识别的重要性以及事件在获取身份独特面部微动作上的有效性。基于眨眼特性的识别认证系统,可在微秒级延迟下捕获人眨眼的微妙变化,通过生物特征(如持续时间、速度、能量、比率、频率等)来描述眨眼的运动、速度、能量、频率等信号。
(二)手势识别
手势无处不在,是贯穿于各个年龄段、各种文化的肢体语言,也与口头交流紧密结合,在虚拟现实(VR)、游戏、机器人控制、手语识别等视觉认知应用中具有重要价值。手势识别主要分为传统人机交互中的识别、手语识别,又可分为独立的手势识别、连续的手势识别。独立的手势识别将一段描述清晰的视频帧分类为某一组动作类型,仅需识别孤立词汇或短语级别的动作。连续的手势识别则需要从没有预先给定运动执行边界的输入视频中检测所有手势的开始和结束时间,对应于完整的句子或连贯的思路。当前关于神经形态手势识别的研究,集中在独立手势识别的算法改进上。手势识别的准确性较多依赖于长时间、大范围的监控,这意味着用户的面部、外貌、私密信息等往往会在手势识别过程中被同时捕获;如果应用于隐私要求较高的空间,会让人感到不安。
事件相机用于手势识别时具有明显优势。① 低延迟是手势识别系统的关键指标,流畅交互要求系统响应时间为100~200 ms,这对传统相机而言极具挑战性,但与事件相机的固有特性相匹配。② 常用的手势速度非常快,而RGB相机很难识别快速的动作。异步事件流具有高的时间分辨率,在捕获动态时能够避免模糊。③ 在真实的交互场景中,背景可能非常复杂,导致从复杂的外观特征中识别手势难度较高。基于事件相机仅响应动态的成像原理,复杂的静态背景不会对识别过程产生干扰。
1. 基于人机交互的手势识别
基于人机交互的手势识别研究在2011年首次出现,也是率先使用事件相机进行手势识别的工作之一。尽管这项工作只是为“剪刀石头布”游戏设计的,但成功探索了基于机器学习的特征提取方法,在进入深度学习时代之前具有重要的研究意义。
随后,多个使用浅层神经网络的手势识别系统完成了开发和商用,其中韩国三星公司完成了较多研究。在前期,提出了基于脉冲神经网络(SNN)的后处理框架,使用带泄漏整合发放模型(LIF)神经元来处理时空相关的原始异步事件流。然而,使用SNN这种浅层神经网络的分类方法一直受到“稳定性 – 可塑性权衡”的困扰;考虑到自适应共振理论(ART)可以模拟人类认知处理来克服这个问题,出现了ART与隐马尔科夫模型(HMM)或CNN联合使用以识别连续手势的研究。采用浅层神经网络提取空间金字塔核特征,也可进行手部运动识别。为了更好地保持基于事件序列数据的时空关系,采用半字符级循环神经网络将卷积运算、循环连接结合起来。
随着深度学习的发展,探索深度学习在手势识别方向的潜力成为研究热点。不同的输入形式对应于不同的特征提取网络。事件流上时空去马赛克的超分辨率技术是首个基于深度学习的手势识别方法,在不使用远距离小尺寸训练图像的情况下,能够提高对远距离小尺寸图像的识别性能;然而,由于采用了积累事件流的处理方式,神经形态视觉传感器的异步特性被削弱。
事件流数据还可视为时空中的一组3D点云。在分层分析时空事件云时,端到端地应用点云网络、增强的点云网络,可将识别手势转化为识别手势的几何分布。应用滚动缓冲机制也可实现低延迟。然而,点云网络、增强的点云网络都是基于单点云计算的工作,在计算点特征时并没有充分考虑相邻事件的信息。为此,改进动态图CNN,将相邻事件的信息嵌入到每个点中以充分利用局部结构,可以学习时空几何及形状信息。
鉴于事件流的序列性质,探索新的序列表示方法较为关键。其中,使用混合密度自动编码器可以保持原始事件数据的特性,同时依靠循环神经网络(RNN)–HMM混合可以很好地处理连续手势识别问题。考虑到传统视觉应用中较多采用转换器,在事件转换器中引入紧凑的类转换架构来利用事件数据的局部特征,从而高效处理事件数据的稀疏性,也可获得更准确的结果。除了网络架构层面的研究,还可从其他角度开发基于事件流的手势识别功能。基于神经突触处理器的手势识别系统能够实时且低功耗地完成端到端手势识别。引入了基于事件流的安卓框架,具有后台抑制操作能力。
2. 手语识别
手语(SL)以手势和身体动作的形式传递信息,是聋哑人、听力障碍者的主要交流形式;相应识别涉及面部表情、嘴唇动作、身体姿势等,便于聋哑人表达思想和情感。从技术实现的角度看,手语识别(SLR)的复杂性远超人机交互中的手势识别问题。自2020年起,基于事件流的SLR成为研究热点,当前聚焦于数据集的完善。
基于事件流的动作数据集SL-Animals-DVS,能够记录人类模仿各种动物动作的手势。使用先进的SNN识别系统,对这些数据的识别性能进行了基准测试。在补充传感器数据的细节、补充手语的结构后,在SL-Animals-DVS上测试了深度持续本地学习这一新型SNN算法的性能。构建的DVS_Sign数据集,包含了5个类别词性的600个训练手语词汇。
针对孤立SLR的有效采样策略可避免片段随机采样时捕获冗余和无差别的信息,利用事件分布的数量特征,对包含更具辨别力、更有显著运动特征的关键片段进行采样;还可采集基于事件流的合成手语数据集。
(三)面部分析
面部分析在智能系统中有很多实际应用,如眼动追踪、驾驶员监控、面部表情检测等。这些任务都需要对面部进行直接捕捉,而任务本身不依赖于面部的敏感生物信息。事件相机作为具有高峰值采样率的传感器,能够以更高的保真度表征运动,甚至可在各种恶劣光照条件下实现动态识别。
1. 眼动追踪
在VR、增强现实应用中,快速眼动追踪可增强虚拟场景的交互性。跟踪用户的视线,可以更精确地实现虚拟物体与用户的交互,减少用户因视觉输入与平衡感不一致引起的晕眩感。
基于帧 – 事件混合的近眼注视跟踪系统可提供>10 000 Hz的更新率,结合在线二维瞳孔拟合方法来更新参数模型、多项式回归器来实时估计模型的注视点。然而,该方法依赖传统相机,不利于展现事件相机在运动模糊、低功耗方面的突出优势。角膜闪烁跟踪仅需要图像中的稀疏像素集,故利用事件相机的自然稀疏性可以检测出场景中的变化。编码差分照明方案专注于闪烁反射,较好解决光与闪烁的对应关系。此外,应用二进制光脉冲在准确识别眼睛反射出的光点及相应光源上具有独特优势。
上述方法应用需要配置额外的硬件,无法仅靠事件相机进行操作。为此,发展了一种事件到帧的转换方法,将眼球运动所触发的事件编码到三通道帧中,形成仅靠用事件相机、无需额外传感硬件的系统;通过训练卷积神经网络,对代表瞳孔的事件进行分类,实现瞳孔位置跟踪。
2. 驾驶员监控
驾驶员状态极大影响驾驶安全,驾驶员监控系统对于预防交通事故极为必要。通过驾驶员的面部表情以及头部、眼睛、嘴巴的运动,可检测驾驶员分心、注意力不集中、疲劳等情况。例如,识别了驾驶员的面部动作,如眨眼、说话和张嘴(打哈欠),提取了与睡意相关的动态特征;提出了多个基于深度传感器记录的数据集,分别用于驾驶员的睡意检测、注视区域估计、手势识别。
驾驶员监控系统由多个相互关联的任务构成,为此引入多任务框架以深入研究分心驾驶。门控循环YOLO技术能够自适应调整帧率,实时检测并追踪驾驶员的面部及眼睛。眨眼是人类行为和状态的重要指标之一,分析眨眼模式细节的新方法可识别眨眼产生的异常事件峰值。先定位并跟踪面部及眼睛,后同步估计头部姿势、眼睛注视、面部遮挡,形成了更进一步的两阶段的研究架构。自适应体素分割网格将包含可变数量的事件流编码为体素网格序列,再将体素网格序列输入长短期记忆网络(LSTM)中,据此建立可检测驾驶员分心的时间模型。
为了适应计算资源受限的移动平台,使用轻量级平移不变主干网络来提取多尺度特征,可实现驾驶员面部的单次检测。对特征图金字塔网络、上下文模块进行移位,能以有限的计算成本来加速时空特征提取。
3. 表情识别
在电影制作、游戏开发中,面部表情识别可使角色拥有更真实和生动的情感反应,能够增强用户体验。当使用交互式推荐系统时,用户的表情可体现出他们对交互界面的态度,便于计算机更准确地理解用户的情感和意图。这种面部肌肉的微小运动是不由自主的,发生周期仅为数个毫秒,很难被RGB数据捕捉到,但可以通过事件流被捕获。
用于面部反应的事件 – 反应数据集包含了时间同步的RGB和事件相机的面部数据,手工标记的反应分数(负面、中性、正面)帮助读者了解人们在使用交互系统时的面部反应过程。关联于情感的面部表情识别数据集,支持展示事件流数据在隐藏情感方面的分析潜力。
在基于眼部的情感识别方面,利用事件相机、尖峰神经网络进行事件的情感识别,可从强度帧中获得空间纹理线索。相应的训练策略可使时间特征提取器能够关联空间和时间特征,从而得到一致的情感分类。
五、基于事件流的图像重建与修复
近年来发展了从事件数据中高保真重建标准(灰度)图像的算法,得到的图像或视频数据广泛用于对象识别、即时定位与地图构建、光流估计等任务,从而将传统视觉算法引入到事件相机中。这些重建和生成方法也可能用作获取与隐私相关视觉信息的攻击手段,构成基于事件流的视觉应用中潜在隐私威胁。
(一)强度图像重建
基于内部视网膜原理组织不同的地图区域,形成可解释强度和光流的视觉系统,这是早期进行的事件流图像重建研究。由于网络的每个区域都试图与邻近区域的信息保持一致,相关方法使视觉解释趋向于全局相互一致性。在进一步的研究中,采用两个并行的概率滤波器,同时跟踪相机的全局旋转运动并估计周围场景的梯度,再将梯度图像升级为具有超分辨率、高动态范围特性的完整图像;将上述方法扩展到处理6自由度运动和深度估计等任务,实现更复杂的处理能力。
利用变分能量最小化框架同步恢复场景的强度图像和稠密光流,是新的研究探索。其中的损失函数包含异步事件数据、滑动时间窗口内的空间和时间正则化,无需估计相机运动和场景特征。结果表明,光流对于恢复清晰的图像边缘至关重要,在快速移动场景中更为明显。应用基于迭代过滤的变分去噪模型、由事件的相对时间戳引起的流形建模事件流,可在不明确估计光流的情况下,将恢复强度的重构问题转化为能量最小化问题,显著降低处理过程的复杂性。
基于补丁的稀疏字典建模事件流,是对真实事件传感器数据的良好近似。基于字典的先验信息适用于高速视频重建,如通过字典学习估计梯度图像、通过泊松重建恢复对数强度图像。然而,事件数据存在空间稀疏性,导致重建的强度图像存在明显的伪影并缺乏纹理信息。
除了将人为设计的平滑先验知识嵌入到重建框架中,还可采用神经网络来实现从事件数据到强度图像的重建。随着SNN的发展,越来越多的方法探索使用SNN或脉冲来处理事件流。基于脉冲的类视网膜视觉图像重建架构由运动局部激励层、尖峰细化层、视觉重建层组成,其中的视觉重建层由LIF神经元驱动,神经元之间的突触连接满足尖峰时序依赖性可塑性规则。两阶段神经网络整合了优化拉普拉斯预测的CNN网络、优化泊松积分的尖峰神经网络,不需要任何学习过程,可训练的参数数量显著下降。尽管如此,这些神经网络的参数量仍然较大(约1×107个),导致计算成本昂贵。
火焰检测网络(FireNet)依赖循环网络结构计算随时间变化的状态,有助于提高计算效率。与E2VID相比,FireNet重用以前的计算结果,使用更小的网络来进行重建,提高了效率。改进基于事件的CNN训练数据策略,以现有数据集的统计分析为依据,提高了对真实事件数据的概括性,更好适应事件相机的数据集数量仍然较少、很难得到良好训练效果的实际情况。
(二)图像修复
事件数据中包含噪声,低分辨率的重建往往包含可见的伪影和失真,无法满足高质量和高分辨率图像的应用需要。图像修复能够解决这一问题。端到端的EventSR模型用于解决从低分辨率(LR)事件数据中重构和求解超分辨率(SR)强度图像的问题,包含从事件流中重建LR图像、增强图像质量、对增强后的图像进行上采样3个阶段,主要采用无真值的无监督训练方法并分阶段进行训练。尽管不同阶段对应不同的任务,之前阶段的预训练网络可续用至下一阶段,以端到端的方式进行整体微调。作为EventSR改进模型的端到端联合框架,主要用于单图像重建、从SR事件数据中重建SR图像。此外,EventSR可扩展用于更具挑战性的高动态范围、清晰图像重建、颜色事件等任务。
使用循环神经网络,迭代地将细节添加到强度帧中,可从事件中直接重建更高分辨率的强度图像。事件增强稀疏学习框架能够同时承担去噪、去模糊、超分辨率等任务。EvIntSR-Net可将事件数据转换为多个潜在强度帧,实现强度图像的超分辨率;以循环更新的方式合并潜在强度帧序列,进一步提高重建的质量和分辨率。
显示相机系统能够记录并收集多分辨率事件数据集,支持事件信号的形成和衰减机制研究。以3D U-Net为骨干架构的深度神经网络框架,用于联合去噪和超分辨率神经形态事件;与其他基于2D-CNN的多通道方法相比,在时间维度上具有更多通道,可更好利用时间相关性;设计了执行事件到图像转换的补充模块,进一步增强分辨率。使用“噪声到噪声”方式训练网络,以提高网络性能。
(三)视频重建
近期,基于直接事件集成的视频重建方法获得关注,不依赖任何场景结构或运动动力学相关假设,可以自然地重建任意帧率的视频。E2VID将事件流转换为3D时空体素网格序列并输入循环网络,在大量模拟事件数据的视频重建过程中进行学习和训练。普通RNN在处理长序列时会在反向传播过程中出现梯度消失问题,针对这一问题的改进形式为:使用卷积LSTM模型训练更长的序列,提高框架的时间稳定性,扩展后可将彩色事件流合成为彩色图像。通过处理时空坐标堆叠的事件,也可以达到类似的应用效果。
基于完全尖峰神经网络(EVSNN)框架可将事件重建为视频,利用LIF神经元、膜电位神经元存储有用的时间信息(即记忆);引入基于尖峰神经元膜电位的混合电位辅助框架(PA-EVSNN),更好提取时间信息。将事件数据与潜在图像关联并用于模糊产生过程建模,基于事件的双积分模型支持从单帧模糊图像及其事件数据重建高帧率且清晰的视频。基于事件的多重积分模型可根据多个图像及其相应事件获得更平滑的结果(消除模糊),进而重建高时间分辨率的视频。
已有研究表明,卷积神经网络在基于事件流的视频重建中应用效果良好。然而,传统的卷积运算存在固有的局部性,无法对大范围的场景进行建模。为此,基于事件流的视频重建混合网络(ET-Net)结合来自CNN的精细局部信息、来自虚拟转换的全局上下文,在多尺度令牌集成、语义概念交叉的支持下进一步提高网络性能。
六、重建图像对隐私保护的攻击分析
为了直观呈现重建算法对事件流隐私保护构成的威胁程度,本研究对比了6种图像重建算法(Sim-to-Real、FireNet、E2VID、EVSNN、PA-EVSNN、ET-Net)在HQF、IJRR、MVSEC数据集上的图像重建结果。图2展示了6种算法在IJRR数据集的不同场景下的测试效果,可见E2VID算法的重建结果中包含最清晰的纹理信息。进一步,使用事件相机采集人脸数据,基于E2VID算法进行图像重建(见图3)。实验表明,这些重建和修复方法仍然无法很好地恢复其中包含的敏感信息(如人脸),说明事件相机仍然可以用于需要兼顾隐私和性能的感知任务。
在图像处理领域,均方误差(MSE)用于评估重建或生成的图像与原始图像之间的差异,结构相似性(SSIM)用于测量两个图像的视觉相似度;不同于MSE只计算像素值的误差,SSIM考虑像素之间的结构信息,可以更全面地评估图像质量。感知相似性(LPIPS)用于评估图像的感知质量,比较深度神经网络中的特征来测量图像间的视觉差异,更接近人类对图像质量的感知评价。在HQF、IJRR、MVSEC数据集上,进一步对FireNet、E2VID以及采用优化训练策略后的FireNet+、E2VID+算法进行量化评估(见表1)。FireNet在各个数据集以及各个指标下的效果均优于E2VID,然而E2VID+的效果指标多数优于FireNet+。可以看出,基于深度学习的图像重建方法在很大程度上依赖训练数据集和测试集之间的一致性,降低了算法在实际应用中的泛化能力。
图2 经典开源重建算法在多种场景下的效果对比
注:GT表示直接由可见光相机采集的原始数据,作为重建效果对比的真值。
未来,事件相机的重建算法或许会在一定程度上影响事件相机的隐私保护价值,但事件相机捕获的特征信息仍然比传统光相机要少得多。即使尝试使用重建算法来提取隐私信息,这一过程也会受到诸如检测目标的运动状态、事件相机自身的运动状态、事件相机内部参数等条件的限制。退一步看,即便存在非常优秀的事件相机重建算法,但完整采集人脸数据必须使人脸近距离面对相机并进行不停移动,或者将事件相机安装在移动平台上进行数据采集,而在家庭环境或者大部分道路环境下这是几乎不可能出现的情况。因此,重建(尤其是高精度重建)算法与事件相机的隐私保护能力并不矛盾,很大程度上是不同情况下的不同应用方向。
图3 E2VID算法在自采集事件数据上的图像重建结果
注:第一行重建结果对应相机运动下采集的数据;第二行重建结果对应相机静止下采集的数据。
表1 重建算法量化对比
注:表示相应数值越小越好;表示相应数值越大越好。
七、结语
本文从基于事件相机完成敏感生物信息隐私保护的视角出发,深入分析了代表性感知任务的基本特征与研究进展。仅从自行完成的图像重建实验结果来看,事件相机在增强各类感知算法的隐私保护能力方面将发挥突出的作用。究其机理,事件相机的工作原理与传统的可见光相机不同,仅在场景中发生变化时才记录事件;事件相机的数据量相对少,减少了数据存储和处理需求,有利于降低综合成本;事件相机因其高动态范围、低光敏感性而在夜间或光线不足的环境中表现出色,适用于安全监控、交通管理等应用场景;事件相机可与数据加密、匿名化等隐私保护技术相结合,为工程应用提供了多层次的隐私保护能力。应用事件相机可以更好满足隐私保护需求,妥善保护个人信息,而又不退化工程应用的功能及性能,为未来的各类应用带来更高的安全性和隐私性。
着眼大规模的工程应用,针对基于事件相机的隐私保护部署提出如下发展建议。① 降低硬件成本,便于扩大事件相机的应用范围。不同于激光雷达因固有成本高而无法降低价格,事件相机仅因产量较小而致价格难以下降。未来可从标准化制造流程、推动模块化设计、优化供应链管理等方面着手,持续降低事件相机的硬件成本。② 改进处理算法,建立鲁棒且通用的底层特征提取网络结构。相较传统基于RGB的算法,基于事件流的感知算法的任务性能还有待提升。对于动态识别、手势识别、行人重识别等实际应用任务,只有部署恰当的特征提取网络才能充分利用事件流中的时空关联信息,进而有效提取其中的动态信息。③ 从市场角度推动,根据市场需求进行产品调整并注重用户体验。强调事件相机的数据安全性,提供简洁且清晰的操作信息,以便应用者理解和掌握相关技术。丰富演示和应用案例,展示事件相机在隐私保护应用中的实际效果,增强市场竞争力。
注:本文内容呈现略有调整,若需可查看原文。
作者简介
郑南宁
人工智能与自动控制工程专家,中国工程院院士。
主要从事计算机视觉与模式识别、人工智能及其先进计算架构研究。
注:论文反映的是研究成果进展,不代表《中国工程科学》杂志社的观点。
声明:本文来自中国工程院院刊,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。