数字化促进了科学研究的变革,越来越多的重大科学突破需要通过跨组织或跨学科团队传输、存储和分析数据集合,高效传输不断增长的科学数据已成为一项核心挑战,网络的重要性逐年增加。

ESnet是美国能源部 (DOE) 科学办公室 (SC) 的高性能网络设施,为数据密集型科学研究提供可靠的数据传输系统,以确保研究活动顺利开展,让科学家们聚焦专业,不需要了解底层网络基础设施是如何运行的。

ESnet通过专网连接了能源部的50多个研究站点,包括美国国家实验室系统,超级计算设施和重要科学仪器,能够提供100 Gbps带宽的网络接入。ESnet还连接了140个研究和商业网络,使全球数以万计的科学家能够进行合作。本次市场动态将介绍ESnet在传输科研数据方面做的努力。

高速的WAN通道

科学协作需要端到端的连接,作为提高网络性能的关键一步,对理想条件下网络连接的预期速度有一个基本的了解至关重要。TB级别的数据传输对于科研已司空见惯,那么传输 1 TB 数据到底需要多少时间?

表:理想情况下传输 1 TB 数据所需的时间

当前ESnet每月传输约150 PB (1PB=1024TB) 的数据,流量平均每 4 年增长 10 倍,参考上方的数据表格,高性能广域网连接对科学研究是必不可少的。

图:ESnet流量图[1]

资料来源:ESnet

持续增长的流量要求网络进一步升级,当前使用的ESnet于2013年完工,为美国能源部的研究站点带来了100 Gbps带宽。下一代ES net预计将于2023年完成,它将采用全新的软件驱动网络设计,提供100–400Gbps 光通道。

科研数据流量增长由多方面因素推动,包括更强大的超级计算机产生的数据浪潮,全球合作可能涉及的数据移动,以及大型强子对撞机和数字巡天等专业设施。

流量图中OSCARS是ESnet开发的流量调度软件,用于在时间和空间上预定网络资源以及优选路由。历史流量记录可以追溯到2009年,最高流量占比达到50%。OSCARS被广泛认为是软件定义网络 (SDN) 开发的先驱,再次实证了科研网络的技术研究最终能够惠及商业网路。

用户最后“一公里”的接入方面,备选方案无外乎三种:高速专线直连、VPN、SD-WAN。对比后两种,高速专线能够提供更好的质量保障,更大带宽,更低时延抖动以及更好的安全性。

表:不同网络接入方式性能对比

资料来源:腾讯、APNet 2021亚太网络

当前的 ESnet 网络运行在与 Internet2 共同拥有的光纤上,因此Internet2的接入用户可以共享ESnet的科学计算资源。独立于一般互联网应用,Internet2单独为学校提供连接专用或公共计算资源的专线,Layer 2 网络和layer 3网络的解决方案均可。在2017年,加州大学就已经使用100G带宽专线连接NERSC超算中心。

Science DMZ构架

实验室或大学校园网络通常需要支持多项任务。首先,它必须支撑日常的业务运营,包括电子邮件、采购系统和网页浏览等。同时,网络还必须构建安全功能,以保护财务和人员数据。最后,这些网络还被用作支持科学研究,共享、存储和分析来自许多不同外部来源的研究数据。

然而,在大多数情况下,为日常业务优化的网络不是为数据密集型科学的数据移动而设计。当研究人员试图在这些“通用”网络上运行科研应用时,结果往往是性能不佳,在许多情况下,差得足以严重影响科学任务。因此有必要对网络进行调整,使其能够支持科学应用而不影响通用网络的运行。

Science DMZ 架构通过将高性能科学网络与通用网络分开,优化各自网络同时相互不再干扰。

“Science DMZ”一词源自“ DMZ networks ”,由 ESnet(Energy science network)创造。

传统的 DMZ 是网络中位于企业内部网络和外部网络之间的区域,在这个区域内可以放置一些需要对外的服务器设施,如企业Web服务器、FTP服务器和论坛等。安全策略、网络设备配置等是为 DMZ 量身定制的,不会与内部 LAN的安全策略和配置混为一谈。Science DMZ 将这一概念应用于支持高性能科学应用。

ESnet曾为Science DMZ出版过一个指导手册“ Comprehensive Tutorial on Science DMZ”,认为其需要包括四方面的要素:

1) 专用数据传输节点 (DTN),专为通过广域网高速发送/接收数据而构建;

2) 连接DTN、仪器、存储设备和计算系统的高吞吐量、无摩擦路径;

3) 性能测量设备,用于监控多个域上的端到端路径;

4) 为高性能环境量身定制的安全策略和执行机制。

图:应用ScienceDMZ架构的超级计算机中心网络示意图

资料来源:ESnet

上图是一个符合Science DMZ构架的超算中心的构架图,旨在处理高速率数据流而避免丢包。网络测试和监测能力从一开始就集成到基础设施中,这样无论本地基础设施是否出现故障,都可以快速定位和解决问题。此外,广域数据传输对并行文件系统的访问通过专用于广域数据传输任务的数据传输节点进行。当数据集传输到 DTN(数据传输节点) 写入并行文件系统时,数据可以立即在超级计算机资源上使用,而无需对数据进行双重复制。

为什么Science DMZ 有助于解决TCP 性能问题?虽然大部分科学计算应用使用基于TCP 的工具进行数据传输,但 TCP 对数据包丢失的处理可能会导致性能问题。TCP 将数据包丢失解释为网络拥塞,因此当遇到丢包时,TCP 会显著降低其发送速率。之后速率再次缓慢上升,但如果遇到进一步的损丢包,速率将进一步降低。随着通信主机之间的距离增加,这种变得更加明显。ESnet的测试说明,即使是很小的丢包(远低于1%)也足以将TCP性能降低50倍以上。

通常,构建新网络以适应 TCP 比修复TCP 更容易,使其更具容错性。Science DMZ 架构允许实验室、园区或科学设施构建专用基础设施,以使高性能应用成为可能。

[1] OSCARS:支持提前预定网络资源,LHCONE:是一个虚拟专用网络项目,提供数据交换服务.

声明:本文来自赛尔网络市场动态,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。