李玉宏, 张朋, 金帝, 周颖超
北京邮电大学网络与交换技术国家重点实验室,北京 100876
【摘 要】
技术的发展和未来社会全面数字化、智能化的需求,使多种新的网络应用成为可能。这些应用的大规模使用给用户“身临其境”、高速交互与精准控制的极致体验,同时也对传输能力提出了极高的要求。从描述未来网络中的 4 个应用场景出发,通过对比当今和未来网络应用的场景特点、技术实现手段和方法、用户体验、性能指标要求,分析未来网络应用的演进趋势和网络传输指标要求,总结和预测对未来网络的能力需求。
【关键词】: 未来网络 ; 全息通信 ; 增强现实/虚拟现实 ; 触觉网络 ; 远程监控
【Abstract】
The development of technology and the need for comprehensive digital and intelligent society in the future make a variety of new network applications possible.The large-scale use of these applications will put extremely high demands on the transmitting networks while satisfying users’ requirements of the ultimate “immersive experience”,high-speed interaction and precise control.The typical emerging applications including the technical methods for realizing the applications,user experience and performance requirements of the applications were analyzed.The evolution trends of the networking applications were summarized by comparing the characteristics of current and emerging applications,aiming at analyzing the challenges of the emerging applications on the future networks and predicting the requirements on the future networks.
【key words】: future network ; holographic communication ; AR/VR ; tactile internet ; remote process control
1 引言
电子、计算机和人工智能等技术的飞速发展使许多新型网络应用逐渐成为可能,如全息多媒体、远程手术、沉浸式旅游景点体验、智能工业控制等。随着社会的进步和人们生活水平的不断提高,这些应用将会逐渐普及,并可能会大规模使用。同时更多的应用、更高的需求也将不断涌现,这将会给未来的网络提出极高的需求和挑战。
首先,这些新型网络应用与目前正在使用的传统网络应用有很大的不同。例如,以远程手术为典型代表的触觉网络应用,由于需与用户的身体直接交互,因此这类应用通常对安全性的要求极高,并且对网络的时延及安全性和可靠性要求也极高。同时,由于用户的手、眼、耳、鼻等器官同时参与控制与反馈,不同类型的信息传输及传输性能也要求精准的同步。此外,随着近年来物联网的迅速发展,包括工业4.0的推出,实现智能数字社会的愿景拉动了机器人辅助应用的需求,如机器人辅助电子卫生保健为老年人提供帮助、无人机物流等,机器人之间的通信和精准控制变得至关重要。同时,增强现实和虚拟现实(augmented reality/virtual reality,AR/VR)技术的发展也推动了沉浸式旅游景点和多人益智类游戏的发展。为了满足用户身临其境的需求,网络的时延必须特别低。尤其是当这些网络应用变成人们生活的一部分,在多个领域内大规模使用时,将会给网络的能力提出极高的需求。
其次,由于不同电子、编码和光学等技术在新型网络应用中的深层次应用,这些技术会对应用的性能本身造成一定的影响。因此,如何识别各网络应用各个维度的要求,并描述它们之间的关系,将其转换为对网络的性能要求指标是一项巨大的挑战。
正是由于这些新应用需求的推动,目前国际著名研究机构和组织已经开始了对未来网络需求和架构的研究。如机器人和远程呈现、AR/VR、医疗保健、道路交通、严肃游戏、教育和文化等方面的需求都推动了对触觉网络的研究对触觉网络展开研究。此外,欧盟也成立了NetWorld2020,作为欧洲通信网络和业务的技术平台,已经制定了2021—2027年的战略研究和创新计划。华为公司也提出了IP2020的概念。根据参考文献的分析,到2020年,全球3/4的移动数据流量将是流媒体视频。移动用户的大量物联网、视频流等应用促进了未来网络的发展,网络将提供多样化的大规模物联网连接、移动嵌入式、跨所有内容的连接以及提供超媒体的高吞吐量传输的连接。
因此,将从应用场景、技术实现手段和方法、用户体验、性能指标要求等方面深入分析未来将会出现的4类典型网络应用,包括VR和AR相关的应用、全息多媒体、需要触觉和远程运动控制的远程手术及未来工业网络中涉及的远程控制。重点关注关键性能指标和对网络的要求,旨在分析这些应用的演进趋势及对未来网络能力的需求和未来网络面临的挑战。
2 未来网络应用场景及网络需求
2.1 增强现实和虚拟现实
2.1.1 应用场景
现场模拟应用对于需要高成本、具有高危险性的领域有很强的吸引力。该应用可用于自然灾害逃生及救助模拟、职业训练模拟等,让用户在低成本、安全且生动逼真的环境下进行模拟训练等活动。以模拟火灾现场为例,用户通过头戴式显示器、触觉衣等设备体验身在火灾现场,用户可以看到 360°的全景画面、计算机模拟生成的火焰,听到警报、物体燃烧等声音,感受到来自火焰的热量等。通过逼真的视觉、听觉和触觉模拟,在避免危险的同时为用户提供足够真实的火灾环境,还原火灾现场的紧张氛围,这给用户带来很好的沉浸感,激发用户的求生欲,训练用户的消防技能和心理素质,从而很好地达到火灾逃生、消防演习的目的。
上述的现场模拟应用可通过 VR 和 AR 系统来实现。VR系统将用户置身于一个由计算机合成的三维空间的虚拟环境中,为用户提供视觉、听觉、触觉等感官的模拟,以提供沉浸式的体验。同时,用户可以与虚拟环境和虚拟环境中的其他参与者进行交互[7]。AR系统在用户看到的现实世界环境基础上插入计算机模拟的虚拟信息,使现实世界中的真实事物和虚拟对象相结合,允许真实事物与虚拟对象、用户与虚拟对象的交互[7]。VR和AR的区别在于,VR创建完整的沉浸式虚拟世界,产生的计算量和数据量很大;而 AR 将创建的虚拟信息插入现实世界中,产生的计算量和数据量少于 VR 应用,但 AR 应用更加注重虚拟信息与真实世界的同步,在虚拟信息显示位置上的准确性和时延上的同步性要求更高。除场景模拟应用外,AR/VR 的典型应用还包括 360°VR视频、游戏等。
2.1.2 实现原理和关键技术
AR/VR应用的实现原理如图1所示。首先信息采集子系统通过各类传感器采集相应的视频、音频和触觉数据,然后进行相应的数据处理,如向视频中添加虚拟信息、视频的拼接和投影等。接着编码器对经过处理的视频、音频和触觉数据进行编码。编码后的音频、视频及触觉信息流还需经过重排序、封装等进一步的压缩处理,才能送到网络传输至用户终端进行解码,最终通过AR/VR显示系统输出视频和音频,并通过触觉衣等设备接收触觉反馈。同时,用户终端实时感知用户状态,当用户发生交互行为时做出响应,这需要 AR/VR 系统能够对新画面进行实时处理和编码,并在极短时间内传输到用户端,避免因时延过长导致用户体验不佳。信息采集和数据处理等均可在不同的地点进行。
图1 AR/VR的应用场景及实现原理
与传统的高清视频相比,AR/VR视频具有广视角、高分辨率、强交互性的特点,这意味着AR/VR视频的数据量和对实时性的要求远高于传统视频,这对计算能力和网络的传输能力提出很高的要求。
目前与 AR/VR 相关的主要研究工作都集中在解决 AR/VR 视频显示和数据量过大引起的计算和网络传输问题。为了满足 AR/VR 视频广视角的需求,需要合适的视频投影方式。目前主流的360°VR视频投影技术是ERP(equirectangular projection)。该投影技术将360°的球形视图转换为矩形框架,优点是普遍适用且易实现,缺点在于球形两极部分展开后画面失真较大,且增加了过多冗余像素,对传输造成负担。
为了解决AR/VR视频数据量过大的问题,需要合适的编码方式对AR/VR视频进行压缩。目前比较流行的是国际视频编码标准HEVC/H.265,根据参考文献,其压缩比最高可达600∶1。根据MPEG等标准组织的研究,下一代编码技术 VVC/H.266 的压缩效率能比HEVC再提升40%。
为了降低视频传输过程中的数据量,已经提出了按FOV(field of view)分块分质量传输的方案。在该方案中,当前视角内的画面采用高质量传输,其余部分画面则可采用低质量传输。这种方式大大降低了传输视频的数据量,但是当用户转动头部切换视角时,需要实时切换画面质量,这对时延提出了一定要求。
为了解决AR/VR视频对计算能力要求过高的问题,未来可能会引入云计算和边缘计算等技术协同本地终端,弥补本地终端计算能力不足的缺陷。如参考文献针对数据上传到云端产生的时延过长问题,提出了利用边缘缓存和边缘计算技术,使经常需要访问的内容和计算资源的部署更接近用户,从而降低访问云端产生的时延。
2.1.3 性能指标
在与AR/VR相关的应用中,用户沉浸式体验的好坏主要体现在画面的逼真程度、应用的交互速度和流畅性上。
画面的逼真程度主要与画面的分辨率、帧率、色深等因素相关。根据参考文献,关于分辨率,人眼的像素密度可以高达到 200 像素/度(pixel/degree),在不移动头部的情况下,眼睛可以水平看到150°,垂直看到120°,这意味着理想的VR显示器需要7.2亿像素的区域才能够完全覆盖用户的视角。关于帧率,对于普通 VR 视频, 30 f/s即可达到较好效果;但对于VR游戏等高速沉浸式体验,需要90 f/s甚至120 f/s才能避免运动模糊。关于色深,全色为 36 比特/像素(bit/pixel)。
应用的交互速度主要跟时延相关。目前公认VR 应用对时延的要求为动作到显示(motion to photon,MTP)时延不超过20 ms,以避免晕动症[8]。AR应用要求虚拟信息与真实世界同步,因此AR应用对时延的要求更加严格。此外,要求视频、音频和触觉反馈具有同步性。
应用的流畅性主要与数据传输过程中的抖动、分组丢失率相关。为了获得良好的用户体验, AR/VR应用应尽可能避免卡顿、画面丢失等不良状况的发生,这要求数据在传输过程的抖动和分组丢失率极低。
2.1.4 对网络的需求
为了达到AR/VR应用的性能指标要求,从视觉、听觉、触觉 3 个维度上为用户提供良好的沉浸式体验,针对每个AR/VR应用,网络至少应满足如下的需求。
(1)带宽
对于 VR 视频应用,在单目视场区域为150°×120°(根据前文所述的200像素/度的像素密度计算,分辨率为30 000 dpi×24 000 dpi),帧率为30 f/s,色深为36 bit/pixel,采用H.265编码方式,压缩比为600∶1的情况下,单目视场区域所需的带宽为 1.3 Gbit/s,双目所需带宽为2.6 Gbit/s;对于 AR/VR 游戏等高速沉浸式体验应用,当帧率为90~120 f/s时,单目视场区域所需带宽为3.9~5.2 Gbit/s,双眼所需带宽为7.8~10.4 Gbit/s。
(2)时延
VR应用的MTP时延不能超过20 ms。相比VR应用,AR应用更注重虚拟信息与真实世界的同步,因此对时延的要求更加严格。
(3)数据同步
网络应能保证用户接收的各个维度信息数据流的同步,避免用户感觉不适。
(4)抖动和分组丢失率
抖动和分组丢失会引起AR/VR应用的卡顿、画面模糊、画面丢失等不良情况,极大影响了用户的沉浸式体验。根据参考文献中的数据,分组丢失率在TCP模式下要低于3.62×10-7,在UDP模式下要低于5.58×10-7才能达到极致体验的效果。
2.2 触觉网络
2.2.1 应用场景
试想这样的情景:偏远小城市的人们可能会遇到突发疾病需要紧急手术治疗,而该城市没有能够执行这种手术的医生。如果有经验的医生能够通过网络远程给病人执行手术,这样病人就不会因为时间的耽搁而错过最佳手术时间,并且既节约了时间又节省了医生或病人的旅行费用,还能够充分利用医生资源和专业知识。
但远程手术意味着医生需要实时观察病人的病情,通过网络远程操控设备,同时还需细心感觉设备与病人的接触,密切关注病人在手术中的反应,并根据病人的反应及时采取应对措施。包含触觉反馈信息的网络系统能够满足上述需求,如图2所示。这里病人所在手术室通过触觉传感器、360° 3D 高清摄像头、高清音频录音设备等获取病人和周围环境的各种信息,包括手术设备与病人身体接触的触觉信息,并通过编码将编码后的数据通过网络传输给远处的医生。医生获取到解码后的信息感知到病人的状况和细微变化,操控远程设备对病人进行手术操作,同时能够像在本地手术室给病人手术一样,感觉到设备与病人的身体接触状况。
图2 远程手术
这个应用场景涉及可以传递触觉信息的触觉网络。利用触觉网络可实现的场景还包括健康保健(使用轮椅的人可以使用外骨骼进行行走、远程手术医疗)、教育和运动(外科医学教育、体育活动训练)、交通控制(智能交通灯控制、远程驾驶控制)、机器人与制造、自由视点视频、智能电网、范式转换等。
2.2.2 触觉网络应用实现方法和关键技术
触觉网络应用可以分为 3 个域:主域(master)、网络域(network)和从域(slave)。主域通常由人类(即操作员)和人工系统接口(human system interface,HSI)组成。HSI是一种触觉设备,通过各种编码技术将人类的输入转换为触觉输入以及将触觉反馈转换为人类的可感知信息,包括触觉、听觉、视觉、嗅觉和味觉等多模态感觉数据。网络域提供主域和从域之间的双向通信。从域则由一些装有执行器的接收器和触觉渲染算法组成,将接收到的数据解码恢复为原始信息。此外,不论在主域还是从域都可以使用人工智能(AI)模块,比如使用卷积神经网络或其他的深度学习算法来提供例如异常诊断和定位、解剖策略、预测或监视操作命令和触觉反馈等。这里触觉信息通常由两种类型的反馈感觉组成:运动反馈,提供关于远程身体部位的相对位置的感觉,例如力、扭矩、肌肉张力、位置和速度;皮肤反馈,提供与皮肤有关的感觉,如表面纹理、摩擦、压力、振动、疼痛和温度。
实现触觉网络应用涉及的关键技术主要为触觉传感器的设计、触觉数据的编码以及多模态信息同步。由于触觉信息涉及的因素很多,因此通过传感器检测到完整的触觉信息是个难点。触觉传感器的设计需要考虑灵敏度、响应范围、响应时间、空间分辨率、可靠性、温度依赖、成本和复杂性等因素。目前大都只是检测力的大小等简单信息。此外,即使完整地检测到了触觉信息,由于每个维度的信息涉及的范围及分辨率不同,且不同的应用对触觉信息的灵敏度要求也不同,灵敏度越高要求的编码越精细,产生的数据量也越大,对网络的带宽要求也越高。因此触觉信息编码也是一个研究的难点。再次,由于各维度信息在检测和编码过程中的处理速率不同,因此从域的不同处理方法可能导致多维信息不同步的问题,造成使用者感觉不和谐的后果,因此使用硬件或软件技术来解决这种不同步问题也是触觉网络发展的一个关键要素。
2.2.3 性能指标
尽管触觉网络已经吸引了行业和学术界的注意,但目前有关于触觉网络应用性能指标的讨论还很少。从用户体验的角度出发,探讨触觉网络应用在不同场景下所应该具备的性能要求。由于用户既希望获得高质量的功能体验,又希望这种体验是稳定安全的。当需要与远程环境交互配合时,用户需要有一定程度的沉浸感,即透明体验,这样才能产生期望的操控动作。因此体验的透明度可以作为衡量触觉网络应用的性能指标之一。此外,对于远程手术或涉及其他军事、安全等领域的应用场景,触觉应用的不稳定可能给使用者带来很大的损失以及人身安全隐患,因此触觉应用所提供服务的可靠性也应该是衡量触觉网络应用的性能指标之一。
其中,参考文献的工作,可以由以下方面来表示透明度。
(1)感知死区
人类感知阈值,给出人类所无法感知的触觉变化范围大小。
(2)准确度
衡量远程环境中正确控制的百分比。这是由人类操作者在主域中得到的正确触觉反馈产生的。
(3)时延
由于必须在远程环境中正确执行操作,且应该实时向用户发送正确的触觉反馈,因此时延也是衡量透明度的重要指标。
(4)多模态传感信息的同步
多感官配合是人类大脑最终获取周围环境和事物认知的一般方式,因此听觉、视觉和触觉等多维度信息的同步程度是衡量感官和谐度的手段之一。
可靠性由以下方面表示。
(1)触觉控制的稳定性
衡量主域和从域应对网络波动以及其他干扰如断电切换等情况的应对能力。
(2)隐私和安全
由于触觉网络应用通常会跟人体密切接触,因此,隐私和安全应该是衡量这类应用的性能指标之一。
2.2.4 对网络的需求
综合考虑透明度和可靠性,包括远程手术在内的触觉网络应用对传输网络的以下方面都有极高的要求。
(1)时延
在触觉应用中,多个传感信息在时延方面可能有不同的要求,网络需要满足最严格的时延要求。人类手动控制视觉场景并发出预期反应的命令需要1 ms。当用操作杆或者在虚拟环境中移动3D物体时,如果虚拟影像和人的动作之间的时间差超过1 ms,用户会产生类似眩晕的感觉。因此对于触觉应用,网络至少应保证小于1 ms的时延需求,因还需考虑主域、从域的处理时延。
(2)可靠性
主域用户接收到不正确的数据可能导致返回到远程环境的错误响应,而由于网络传输引起的错误响应/操控可能会引起严重的后果。不同的触觉应用对这种错误的容忍程度不同。对于远程手术这样的典型应用,网络传输的丢失分组率要求高达10-918]。
(3)安全和隐私
网络应该使用绝对可靠的安全和隐私技术来保障数据传输过程中的安全性和隐私性。
(4)带宽
触觉应用中传输的信息常需要同时包括触觉、听觉、视觉等多种感官信息。高质量的触觉信息对带宽的要求很高。如假设压力感应的灵敏度为0.1 kPa,那么编码正常范围内的压力信息至少需要 12 位;同样,考虑温度感应的灵敏度为0.1℃,那么编码日常感受的温度至少需要11位;假设编码作用力的方向信息所需位数至少为9位,信息采样频率为 1 kHz,不考虑数据压缩的情况下,传输手掌大小的触觉信息所需要的带宽至少为50 Mbit/s。虽然不断发展的触觉信息编码技术会减少网络中传输的触觉数据量,但各维度信息的总数据量也会很大,如在远程手术场景中,医生佩戴3D眼镜等设备实时观察手术现场画面,清晰度要求4K以上,非压缩条件下的数据传输速率要求不低于12 Gbit/s,而未来随着全息技术的发展,视频可能被全息显示取代,因此,单个触觉应用对带宽的要求将会达到10 Tbit/s甚至更高。
(5)数据同步
在触觉应用中,视频数据通过高清摄像机采集,音频数据通过麦克风采集,触觉数据通过触觉传感器采集。视频数据、音频数据和触觉数据通过不同的信道传输,送往同一个接收端。为了保证接收端用户感受到的音视频和触觉信息是匹配的,则要求不同信道传输的数据在接收端的时间轴上是对齐的。一些专业场景信道之间的时延之差要小于1 ms,单信道上的抖动要小于250 μs。
2.3 全息多媒体
2.3.1 应用场景
某些物品,例如历史文物、高精尖的设备等,由于其脆弱性、珍贵性或距离等原因而难以移动或近距离展示。通过图片、视频等方式展示,所能提供的物品信息极其有限,不能给用户提供良好的体验。因此,人们希望在未来能够通过计算机技术和网络的帮助,将物体的全部信息真实地呈现,包括视觉、听觉、触觉、嗅觉、味觉等方面,给用户“身临其境”的感觉,用户可以从各个角度查看物品,触摸物品,闻到物品的气味等。
这种物品展示应用可以通过全息多媒体(holographic multimedia)技术实现。全息多媒体主要通过全息通信技术实现,即利用全息图远程显示某物体或场景的动态三维影像,完全再现物体或场景的所有真实时空信息,诠释全部视觉线索。此外,全息多媒体还提供听觉、触觉、嗅觉和味觉等其他维度的感官感受,为用户提供“身临其境”的沉浸式体验。除物品展示应用外,全息多媒体技术还可用于通信、娱乐、远程医疗等各个方面。
2.3.2 实现方法和关键技术
全息技术利用干涉方法记录物体表面散射光波的相位和振幅,再通过衍射原理重建物体的三维影像,该三维影像被称为全息图。全息多媒体中,全息图的生成过程主要由计算机完成,计算机得到物体光波的数学描述,通过计算生成计算全息图(computer generated hologram,CGH)。
图3 全息多媒体应用场景及实现过程
全息多媒体的实现过程如图3 所示,首先通过 360°相机、深度相机、点云数据(point cloud data)等方法获取对象信息,再利用计算机计算生成全息图,经过编码压缩后,进行网络传输,在终端进行解码,最后在全息显示系统中通过空间光调制器(spatial light modulator,SLM)重建对象的全息图并显示出来。其他维度信息也需经处理、编码、传输、解码等操作。值得注意的是,为了给用户“身临其境”的体验,传输的各个维度的信息包括全息图,需要同步。
由于全息图包含信息多,产生数据量大,CGH的计算时间长,同时会带来极大的带宽负担,因此,提高CGH的计算速度,同时尽量压缩全息图数据是实现全息多媒体应用面临的技术挑战。CGH 计算速度的提升可以通过多线程算法、多GPU(graphics processing unit)、高性能计算机集群等方法;而压缩全息图数据需要通过有效的全息图编码。
由于全息信号的特征与传统的图像内容显著不同,因此传统的图像和视频编/解码方法不适合全息图,需要引入新的编/解码方法以有效表示全息数据。按照状态,全息图可分为静态全息图和动态全息图。因而,全息图编码方式也可以分为两种。
(1)静态全息图编码
近年来已提出多种针对静态全息图的编码方式,这些编码方式可分为4类:对CGH输入进行编码、在全息图面(hologram plane)进行编码、在对象面(object plane)进行编码、对中间层(intermediate representations)进行编码。
(2)动态全息图编码
动态全息图的编码需要运动补偿和估计来减少编码时间,达到实时编码的目的。但由于光衍射特征,运动会带来信号的全方位变化,动态全息图无法使用传统的运动补偿方案。参考文献提出了一种适用于动态全息图的运动补偿模型,用于预测全息图内容如何随着3D物体运动而变化。
此外,实现全息多媒体应用还需有效解决很多关键技术问题,包括全息图的生成、压缩编码和显示,嗅觉和味觉的捕获和传输等。
在全息图生成方面,受终端设备的计算能力和/或硬件成本的限制,CGH 的计算时间可能过长,难以以视频速率实时生成全息图。随着云计算和边缘计算技术的发展,未来可以协调终端、边缘网络和云的多级计算能力,共同应对CGH的复杂计算任务。
在全息图压缩方面,由于全息图包含复杂而大量的数据,需要高效的编解码方式来压缩全息数据。传统的视频编解码方式并不完全适用于全息数据,需要针对全息数据研究新的编/解码方式。
在全息图显示方面,全息多媒体应用要求能够支持高分辨率、超高刷新率、大尺寸、广视角、多色的全息图;并且由于全息图,特别是动态全息图易受到噪声干扰,使图像发生失真或串扰,因此全息图的显示也是目前研究的重点之一。
在嗅觉和味觉的捕获和传输方面,目前还存在很多困难,很多新的技术问题需要解决。如参考文献提到一种被称为气味记录器(odor recorder)的装置,它可以记录和再现气味。此外,参考文献提到了一种叫电子鼻(electronic nose)的装置,它可以感知气味,但是目前这种装置识别气味的能力还很有限。
2.3.3 性能指标
影响全息多媒体应用性能的一个主要因素是全息图的视觉质量。由于全息多媒体应用的研究还处于开始阶段,并且由于全息显示系统的多样性和全息图数据的复杂性,目前只有少数工作提出了全息图视觉质量的客观评估指标,主观评估体系尚未完善。目前视觉质量指标通常采用信号保真度(signal fidelity)。如参考文献针对全息数据提出了一种复杂值误差的度量方法评估信号保真度,称作VSM(versatile similarity measure);参考文献提出稀疏度重要性排序度量方法SSRM(sparseness significance ranking measure)。虽然信号保真度具有比较明确的物理意义,但是它难以从人类视觉的角度对全息图的质量进行评估。主观的全息图视觉质量指标包括:全息图的逼真度、可视范围等。其中,逼真度由分辨率、像素间距、位深度、可感知的深度范围等因素决定。此外,参考文献中定义了评估3D图像和全息图像质量的参数:不会导致眼睛疲劳、可聚焦的图像深度范围;视差变化的平滑性;视区角度范围内没有图像失真和亮度降低;图像清晰度;图像亮度;深度方向的视区范围;横向和深度方向上的图像失真、串扰;横向和深度方向上的图像分辨率。
影响全息多媒体应用性能的另一主要因素是交互性。全息多媒体应用需要实时感知用户的状态和行为,并且对收到的信息进行快速处理和响应,实时改变全息图和其他各维度信息的内容,并按照应用的要求保持各维度信息的同步性。
2.3.4 对网络的需求
为了给用户提供“身临其境”的体验,全息多媒体应用需要使用光学、电子、化学、生物学等多方面的技术产生各种信息,并通过网络实时传输这些信息。为了能够在接收端逼真地模拟视觉、听觉、触觉、嗅觉和味觉这 5 种感官信息,需要产生和传输大量的信息,并且各个维度的信息还需要同步。因此,全息多媒体应用对网络的需求是极高的。
(1)极大带宽
真实感决定了全息应用对网络带宽需求极高。从全息图的角度上看,全息图像的分辨率、像素间距、位深度、图像大小、编码方式等都影响对网络带宽的需求。理想的高质量全息图的分辨率高达十亿级像素(Giga-pixel)甚至万亿级像素(Tera-pixel),像素间距接近光的波长,因此全息图传输要求极大的带宽。以参考文献中的数据为例,想要显示一个10 cm×10 cm大小的物体,在像素间距为0.414 μm的情况下需要58 Giga-pixel,如果刷新率为30 f/s,每像素的位深度为8 bit,则所需带宽约为14 Tbit/s。参考文献提出一种分形压缩(fractal compression)的全息视频编码压缩方法,能在较好保持全息图质量的同时达到约 32∶1 的压缩比,根据此编码方式,上述所需带宽可降低为437.5 Gbit/s。
(2)极低时延
全息多媒体应用要对用户的交互行为做出实时响应,时延要求远比AR/VR应用严格。时延的影响因素主要包括CGH计算时间、编码时间和网络传输时间。
(3)严格同步
由于全息多媒体应用涉及多维信息,只有各维度信息保持严格的同步,才能给用户逼真的身临其境的感觉。此外,组成全息图的各个媒体流需要保持同步才能避免人眼感到不适。
(4)极低抖动和分组丢失
抖动和分组丢失会导致全息的失真和串扰,也会影响视差变化的平滑性,进而影响用户体验的沉浸感。
2.4 准时无误的过程监控——未来工业网络
2.4.1 应用场景
过程监控是为了提高生产线效率,实时监控子部件性能和产品指标变化,同时结合视觉控制机器人手臂、移动机器人、虚拟现实和全息通信,实现零缺陷生产、“随处设计随处实现”的工业场景。数据经过处理编码成三维图像(如在网络边缘,以尽可能减少数据量),发送到监控中心,同时存储在网络或本地服务器上,以便进一步分析和优化产品。监控中心可以是高性能计算机,执行复杂的算法,以检查材料、产品和机器的质量以及机器人和机器之间的安全距离,和/或在AR/VR环境中执行快速控制。监控也可以使用移动设备,产品制造商可以不受地理区域限制,随时、随处控制生产现场,了解现场状况并进行调整。监控的形式也可以不受传统媒体约束,如可结合AR/VR进行更方便、更准确的控制。机器人的使用可以帮助实现高速精准控制。
这些技术的使用在得到高速、精准、方便的控制的同时,也对网络产生了极高的要求和依赖。
2.4.2 实现方法和关键技术
过程监控主要包括数据获取、数据处理、数据存储和数据传输4部分,如图4所示。其中数据获取性能的提升更多的是依靠硬件上的改进,数据存储部分主要是数据库管理方面的设计,而实时数据处理和网络数据传输方面的技术相对较灵活,对整体应用性能的影响也较大。
图4 过程监控场景
实时数据处理:传统工业网络采用集中管理,将传感器产生的数据传输到中央控制器,控制器分析接收到的信息,然后执行器向工厂发出指令。后来发展到向云端上传和处理数据,突破了空间限制。然而,云计算会受到带宽的限制,从工厂获取的大规模数据全部传送到云端,会发生网络拥塞、服务质量(quality of service,QoS)下降等问题。所以目前采取了将数据处理、分散到本地或者网络边缘,缓解云端和网络传输压力的方法,该方法还能有效提高反应时间。此外,还可以采用将(移动)边缘计算、雾计算技术和云计算相结合的方法,缓解计算和传输压力,确保人机交互、人机协作的确定性时延。
网络数据传输:过程监控存在传感器到处理节点、处理节点到云端/远端控制中心、云端/远端控制中心到传感器的网络传输。现有的预先调度的网络接入方式不能及时接入不确定的时间关键数据(如突发状况信息,这类信息需要一发生就传送,不能采用排队预订的方式),并且对数据冲突的处理会增加网络时延,无法满足高速控制对确定性时延的要求。因此需要有新的协议机制处理数据冲突、数据聚合重传、信道资源分配等问题。目前,已有研究使用开放平台通信统一架构(OLE for process control unified architecture,OPC UA)和时间敏感网络协议的结合建立从现场层(即传感器、执行器所在的现场本地,侧重于数据获取和执行,而非控制和产品设计)、控制层和管理层到云的直接全面通信,确保几十微秒的确定性传输时延,解决工厂物理设备的不匹配和多样性等问题。此外,优化定向路由和链路调度算法,也是降低时延的一种方式。为了实现高速交互,也应该考虑网络中不同优化流量路由和数据流的不同时延级别交互问题。
2.4.3 性能指标
在数据获取部分,每个设备都会存在多个逻辑连接,每个逻辑连接发送的有效负载应在有限时间内得到响应。数据处理部分为了监控图像信息的完整性对带宽、上下行速率提出了要求。数据传输过程中级联交换机的数量越多,时延会越大。当主要传输路径发生问题时,必须在一定时间内切换到备选路径。此外,使用视觉影像监控时,不同现场位置对应不同媒体通道,通道之间的切换时延有一定限制,否则会发生闪烁等现象影响用户体验。同时,控制指令传回传感器、闭环控制结束,整个过程要求有明确的时延,这对包括人机协作的现场来说是非常重要的。依据参考文献对工业物联网应用的数据要求,总结出过程监控应用的性能指标要求见表1。
2.4.4 对网络的需求
由于数据处理、数据存储的部署和远程监控方式的不同,以过程监控为代表的应用对未来网络的能力需求相对较难用统一的指标来描述。总的来说,未来的工业互联网在物理资源层,物理设备需要支持实时信息采集,通信设备应该提供异构信息的高速传输。在网络层,工业互联网应支持具有高灵活性和可扩展性、高数据传输速率、低占空比和 IP 网络可用性的新协议和数据格式。在数据应用层,计算节点和云平台必须能够分析各种数据的语义。此外,网络中性能上还应满足如下特点。
(1)确定性时延
协作机器人效率和安全问题以及零缺陷产品生产过程涉及的闭环控制需要有确定性时延保证。此外,高速人机交互需要尽量降低时延增加用户体验。不同的闭环操作可能存在不同的时延要求,网络需要满足严格的时延要求,包括网络出现状况、需要切换路由线路的情况。
(2)高带宽
生产现场需要布置大规模的各类传感器,将单个传感器的小数据量扩大到足以生成 3D 图、AR/VR以及其他使得用户感受到工厂内部的表现形式,这要求网络能够提供足够高的带宽。
(3)极高可靠性
由于过程监控的目标是实现零缺陷生产,机器操控、人机距离安全保证、控制决策等都要求传输网络极其可靠。这对未来的分组丢失率、抖动、切换时延等都提出了很高的要求。
(4)安全可信
由于生产过程和产品生产方法保密等需求,各种生产线数据及控制数据须保证完整性,数据在传输过程中不能遭受破坏或篡改,这也是机器人控制和远程监控对网络的基本要求。
3 网络应用的演进趋势和特点
3.1 网络应用演进趋势
从上面对 4 种未来网络的应用分析中可以看出,随着技术的进步和人们需求的增加,多媒体、信息感知和交互以及工业互联网等方面的应用都在不断地进行演进,给用户提供越来越好的体验,但同时对网络的依赖性也越来越大,对网络的能力提出了越来越高的要求。
多媒体应用的演进表现为从音频、高清视频向AR/VR、全息多媒体的演进。在演进的过程中,多媒体应用有着信息维度越来越多、交互性越来越强、沉浸感越来越深的趋势。与此同时,它们对网络的要求也呈现出带宽越来越大,时延越来越低,抖动和分组丢失率越来越低的趋势,而且信息维度、用户体验和实现需要的软件、硬件技术等也在不断发展。音频、高清视频、AR/VR、全息多媒体的对比见表2。
在信息感知和交互应用方面,从只能根据听觉、视觉信息进行交互,发展到可以根据触觉信息进行交互。随着生化技术和对人脑研究的进展,未来还可以根据嗅觉和味觉以及五感的综合信息进行远程感知和交互。随着技术的进步,未来会有更多的触觉等网络应用场景得到普及,例如社交领域的远程触觉交互、医疗健康领域的远程手术、交通安全领域的远程辅助驾驶等。总结了信息感知和交互方面应用的发展见表3。
在工业互联网方面,过程监控趋向于“身临其境”的、“随处设计,随处实现”的、基于大规模数据收集的精准、快速、全周期控制。在未来,通过各类传感器全方面收集工厂数据,通过3D图和AR/VR的使用增强用户的体验来改进过程控制的效果,设备维护也可以实现自动化、全方位监控。通过新型的协议机制和边缘计算技术的引用,增强数据计算能力。通过新的路由方式和网络架构减少时延、满足网络的带宽要求。过程监控发展趋势见表4。
3.2 应用演进的特点
根据上面的分析,可以看到未来应用对网络的依赖越来越大,特点总结如下。
· 每个应用包含的信息越来越丰富。如全息多媒体,包含多个维度的信息,每个维度的信息均包含大量的数据。相应地,需要网络传输的信息也越多。
· 每个应用的性能要求越来越高。如过程监控,必须实现快速、精准控制。
· 每个应用的每个信息维度在性能上的要求也越来越苛刻,并且各维度之间还相互影响。
· 技术实现手段更加高、精、尖。使能技术越来越多,越来越复杂。如许多应用需要硬件技术、光技术、生化技术的密切配合。更多的应用需要使用AR/VR技术,未来还有可能需要触觉网络相关技术等。同时,需要多种技术共同完成某一应用,如远程手术涉及触觉网络、全息技术等。
4 应用对未来网络的挑战和需求
随着技术的进步和硬件成本的降低,上述每种类型的应用均有可能大规模使用。这对未来网络提出了严峻的挑战——网络应能支持各种应用大规模运行所要求的性能指标;同时还要提高网络的整体运行效率,以便有效地满足多种不同应用同时运行所需的高性能需求。
为了满足未来多媒体、信息感知和交互以及工业互联网等方面的应用的需求,网络基础设施本身应具有超高带宽和吞吐量、接近零时延、提供确定性时延、接近零分组丢失率、超高可靠性、超高安全性和网络灵活可定制的能力如图5 所示。同时,未来网络应该能够与全息通信、触觉网络、沉浸式技术、意图网络以及边缘计算、人工智能、多种信息编码技术有效配合,以便高效地满足多种不同应用同时大规模运行的高性能要求。
图5 未来网络应用对网络的影响和需求
因此,未来网络应满足如下方面需求。
(1)在传输上
应能提供超高带宽和吞吐量、接近零时延、确定性时延、接近零分组丢失率、超高可靠性等能力。如多通信主体协同操作、全息多媒体的多维信息的同步、工业互联网的精准控制等相关应用都要求网络能提供确定性时延保证。
(2)在计算上
应能够提供各种快速的信息处理能力,如基于人工智能的数据处理。此外,网络的各种决策,如路由寻址、控制方式等,也需依靠高速的计算。
(3)在资源调度和管理上
应能够密切配合应用,不仅需要满足单个应用的每个维度的需要,而且在网络资源分配和调度上,需要对每个应用进行统一的考虑;同时,网络应能提供安全可信能力。
(4)在网络架构上
能够有效配合应用的各种技术手段,如硬件技术、光技术、生化技术,采用多种高效、低损的信息编码技术等,以便使网络整体上的运行效率得到提升。
网络 5.0 产业和技术创新联盟已经提出了引入新传输层、确定性IP等技术来提供网络的超高传输能力。未来网络对应用的性能保证是由网络的架构以及网络的传输、计算、管理机制等综合决定的。因此,各方面能力的动态灵活组合和配置也是对未来网络的主要需求之一。
5 结束语
本文从应用场景、技术实现手段和方法、用户体验以及性能指标要求等方面深入分析了未来将会大规模出现的与VR/AR相关的应用、全息多媒体、触觉网络和远程场景控制等应用,重点关注了这些应用的关键性能指标和对网络的要求。在此基础上,通过对比这些新应用与传统应用的特点,总结了这些应用的演进趋势,探究了在未来用户对使用体验的极致需求以及这些应用被大规模使用的驱动下,未来网络所面临的挑战以及应对这些变化所应该具备的能力。
下一步的工作是根据对未来网络需求的分析,探索未来网络可能的架构,并在该架构下进一步细化各种应用对网络的性能指标需求,同时深入研究提供网络传输性能的新的传输层机制。
[作者简介]
李玉宏(1968− ),女,北京邮电大学网络与交换技术国家重点实验室副教授,主要研究方向为未来网络架构及关键技术、数据流量建模和分析、智能车联网关键技术等。
张朋(1995− ),男,北京邮电大学网络与交换技术国家重点实验室硕士生,主要研究方向为未来网络架构及协议体系、演进趋势等。
金帝(1995− ),男,北京邮电大学网络与交换技术国家重点实验室硕士生,主要研究方向为未来网络架构、需求及其演进趋势等。
周颖超(1996− ),女,北京邮电大学网络与交换技术国家重点实验室硕士生,主要研究方向为下一代网络、未来网络需求及其演进趋势等。
声明:本文来自电信科学,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。