文 / 深圳证券交易所 喻华丽 黄锐
深交所关键信息基础设施情况
深交所为证券集中交易提供的设施包括证券交易系统、交易监察系统、金融数据交换平台(FDEP)和南方信息技术中心(简称“南方中心”),集多层次、多品种、跨市场于一体,既是证券产品交易平台,又是重要信息交换平台,也是行情、指数生成平台,是支撑整个资本市场交易运行的核心生产系统。目前深交所证券交易系统及为市场运行提供基础设施服务的南方技术中心,被认定为国家关键信息基础设施。
交易系统面对的挑战
交易系统是证券市场的核心,是市场运行的关键技术平台,它为全市场提供交易撮合、行情发布等服务。对于交易系统来说,有很多关于业务和技术方面的要求,但最核心的要求是 :高可用和高性能。过去几年多个境外大型交易所都发生过导致交易中断的故障,受到主流媒体广泛报道,受到公众关注。我国的证券市场由于是以散户为主的市场,参与者众多,因此国内交易系统在高可用方面相比境外有更加严苛的要求。同时交易系统的安全运行也是国家金融稳定的重要组成部分。
散户为主的市场特点决定了国内交易系统对高性能迫切要求。我国投资者绝对数量大、委托笔数大,而且国内监管要求对每一笔委托的账户有效性和持股数量进行检查,这对交易系统的性能和吞吐都是很大的挑战。
交易系统营运成效
深交所交易系统已经连续安全运行 17 年。目前系统连接近 400 家交易参与人,直接连通各证券公司交易系统,连接登记结算系统,连通 200 多家托管结算机构,有效服务 1.54亿投资者和 2.23 亿证券账户对 9000 多只证券的交易、结算需求,实现了交易结算业务的高效直通式处理。系统具备对 8亿账户、3 亿笔持股的前端风控、每日 4 亿笔订单的处理能力,持续委托处理能力峰值为 30 万笔 / 秒,实际峰值已超过 20万笔委托 / 秒,双中心模式下最快委托处理时延 1.1 毫秒,经受住日订单 9165 万笔、成交 6459 万笔的峰值考验,且系统两地三中心生产部署,具有高可靠和高可用性,可在 10 秒内完成自动故障切换,3 分钟内实现同城灾备切换。根据交易所联合会(WFE)网站披露的数据和境外主流交易所新闻动态披露的数据,深交所交易系统的日处理委托容量、成交笔数、自主可控能力、安全可用性等主要技术指标都处于领先。
图 1 深交所交易系统与国际主要交易所技术比较
深交所交易系统安全营运工作实践
深交所交易系统连续安全运行 17 年的安全记录放眼全球证券市场都是一个非常优秀的记录。深交所主要在技术基础设施、应用架构设计、自主研发、技术体系和运维支撑平台建设等方面开展工作,以支撑交易系统持续安全运行,不断延长安全运行记录。
1. 健壮的技术基础设施
交易系统采用了双中心运行模式。深交所通过一流硬件基础设施和一流的数据中心管理两个方面着手,促进机房系统的安全运行。机房基础设施具备高可靠的电力系统、高规格的冷却系统、多功能的数据中心模块、快速响应的通信网络、多层级的消防系统 ;深交所重视数据中心管理体系建设,在证券行业率先通过 UPTIME M&O 认证。
深交所规划部署了高可靠低时延网络。为确保网络基础设施的高可靠性,主要采取了以下措施。
全网无单点的设计 :全网的网络设备自身、网络设备之间互联、网络设备对服务器接入提供都无单点,任何一台网络设备故障,均不影响网络连通性。
快速收敛的网络 :经验证,在所有的单点故障和部分组合故障的场景下,网络系统单播和组播的收敛时间都小于 1 秒。其中,组播的快速收敛是非常大的挑战,而我们交易系统应用组件之间的通信方式主要是组播,也正是优异的组播收敛性能,使网络的故障场景交易系统基本无感知。
故障模拟测试贴合业务 :故障模拟并非单一技术系统开展,而是交易应用、服务器、网络设备、安全设备等各领域联合参加全流程模拟,这一方面验证了单一技术系统自身的快速收敛性能,在另一方面也验证不同领域之间的适配性。
深交所注重在基础设施层面的安全防护。交易网络是专网、专线,严禁与互联网直接连接。采取主要的安全措施如下有 :在市场参与人安全接入规范进行强制要求 ;与市场参与人之间的所有通信都需要经过 CA 身份认证,所有通信数据均加密传输 ;在网络边界部署了防火墙、IDS 及轻量级的 DDOS 防护策略 ;在网络内部部署流量分析系统,对骨干流量的进行采集和实时分析。
2019 年,深交所作为证券行业唯一一家单位,参与了公安部组织的护网行动,申报的保护目标就是交易系统。从最后的效果看,深交所技术体系安全可靠,经受住了护网行动的考验。
深交所还建立了完备的两地三中心的运行格局,每年均举行全市场参与的故障演练,全面验证在交易系统发生各种故障、交易所遭受自然灾害等场景下全市场联动的应急处置能力,确保灾备切换技术可行、流程可用,不断提升全行业在业务连续性方面的保障能力。
2. 高可靠和高性能应用架构
高速消息总线是整个交易系统最核心、最关键的基础组件。交易系统通过高速消息总线实现系统内部消息传输以及数据持久化、数据同步、数据补传、主备切换、故障恢复等高可用功能。
基于消息总线的高可用特性,交易系统核心业务层采取了双中心“2+2”模式(主中心一主一备,同城灾备中心两备),每个核心组件有高达 3 个备份的高可用部署架构 :每个核心组件在主数据中心按“1+1”一主一备部署,同时在备中心相应部署了 2 个备份组件 ;一般软硬件错误导致的单个组件故障、不同层的多点组件故障均可在秒级自动切换到备份组件。
高速消息总线的分布式并行处理架构极大提升,交易系统的处理性能。应用组件可以基于总线架构的插件式扩张,同功能组件多分区并发处理,可以按需水平扩展分区数。简单地讲,例如撮合组件性能不够,那么就可以新建一组撮合组件,将原来的撮合任务分担一些给新的组件,例如原来组件撮合0001~1000 的股票,新组件撮合 1001~2000 的股票,这样就实现处理能力的扩展。
图 2 高速消息总线示意图
3. 自主掌控的研发能力
第五代交易系统达到世界一流水平的关键是深交所对自主研发的长期投入。从第一代至第五代交易系统,深交所都坚持自主研发为主的策略,全面自主掌控需求、架构、关键技术、核心组件和软件质量。在第五代交易系统建设过程中,深交所攻艰克难,自主研发了很多核心技术,包含 :多级流水线架构的交易引擎、高速无锁队列、线程安全的共享内存池、海量数据的快速检索、高可靠高性能低时延消息总线、高性能低时延网络、高性能协议转换引擎、首笔委托同时到达、交易单元分组算法、灵活易扩展的委托路由算法、交易引擎开发框架、异步前端监控架构、应用级时延度量等。
正是有了强大的自研能力,交易系统在软件质量保障、故障快速响应、系统性能调优、与周边技术系统联调、运维工具完善等各方面都获得了有效支撑,交易系统安全稳定运行得到有力保障。
4. 完善的技术管理体系
深交所一贯非常重视技术管理体系的建设,先后通过了ISO27001、ISO20000 以及 CMMI5 认证,并结合深交所的实际需求,相应建立起 ISMS 信息安全体系、SOM IT 服务与运维管理体系和 SEP 研发支撑体系。
交易系统制定了安全运维规范制度,主要包括 :日常运维建立完备的流程并严格按单操作,关键环节双人复核 ;定期对系统性能容量进行测试评估分析 ;交易系统的变更必须进行各方参与的变更评估,需在 1 :1 测试环境提前部署是运行,重大变更或者业务上线连同相关系统组织全市场各相关参与方进行仿真测试、全网测试。规范的制度确保交易系统的运维工作得以科学、有序的开展。
5. 功能齐备的运维支持平台
在交易系统的研发阶段,项目团队就关注到运维和安全方面的需求,同步研发了交易运维管理系统和业务管理系统。
交易运维管理系统实现了多维度、全链路的集中监控功能,帮助运维人员可以全方位的监控到从最底层的基础设施、中间件、应用组件,到最上层的服务质量、业务状态,对交易过程中的所有节点、链路的吞吐、时延进行运维监控。运维人员据此可以随时掌握技术系统和业务运行情况,及时发现异常,实现快速定位问题,迅速解决故障。此外,交易运维管理系统还集成了交易系统日常运行维护(包括系统检查、启动、停止、备份等)、应急处置(包括应用组件停止、恢复等)、应用软件版本上线发布等运维功能,具备完备的权限控制和安全审计功能。
在交易系统运行环境里,所有的运维操作必须通过堡垒机进行,堡垒机设置了双因子动态口令功能,确保操作用户登录安全,所有的运维操作完整留痕,保证所有操作可回放、回溯,确保交易系统运维活动在高安全水平下开展。
深交所交易系统安全运营体会
深交所交易系统长期安全运行,是技术团队在系统整体规划、自主研发、精心运维等方面开拓创新,扎实工作的成果,特别是第五代交易系统转向开放平台架构,为交易系统安全运行闯出新天地。
1. 走向开放,开启技术转型之路
深交所在交易领域一直坚持自主研发的道路,但是在第五代交易系统之前,研发积累主要在小型机方面。在 2011 年,深交所开创性的决定将第五代交易系统迁移到开放平台,实现了基于高速消息总线的高可用分布式实时处理架构,经过几年艰难的磨砺,我们获得非常大的回报。首先,深交所交易系统完全实现了自主可控,可以选择任意品牌的开放服务器建设交易系统,不再受单一厂家的主机限制,整体拥有成本大大降低;其次,开放平台的第五代交易系统相比上一代交易系统具备更高的可用性、更高的性能、更低的时延、更高的容量和更高的弹性扩展能力。
深交所主动将在第五代交易系统及其他数字化转型成果向行业分享,并已于 2019 年深交所技术大会上成立了深交所产品技术联盟,旨在建立行业技术产品共建共享机制,搭建行业技术交流平台,先行将深交所完全知识产权的金融级消息总线(FINBUS)作为首个产品纳入联盟免费提供给成员使用。
2. 围绕安全运行进行系统架构规划设计
应用系统架构设计首先需要面对的就是业务需求,但往往容易忽视安全和运维方面的要求,进而造成后续系统运维困难。要保障关键技术系统的安全营运,就要在技术基础设施和应用系统架构规划设计阶段就去识别分析安全和运维的需求,明确各技术领域在可用性、性能方面的目标,各领域各司其职,各展所长。基础设施要精雕细琢,实现高可靠、大容量、高安全、可管理、易扩展的技术平台 ;应用系统不仅要做到技术架构的高可用,也要从运维和业务操作人员的角度理解安全运行的要求,把应用系统运维从“可管”提升到“好管”,从“可用”提升到“好用”。
3. 敬畏风险、尊重科学
一次做好一件事很容易,年复一年、日复一日地做好一件事就很不容易。时刻做好安全运行记录随时清零的心理准备,运行团队时刻提醒自己,运维工作的风险无处不在。环境因素、技术缺陷和人因风险随时可能导致系统出现问题和隐患,在工作中要时刻保持平常心、保持高度的责任感和敏感性,提前发现风险,及时化解和处理风险,降低影响。
采取各种手段确保延续安全运行记录。在基础设施和应用系统具备高可靠和高性能的保障下,在严谨的工作规范、流程的指导下,在技术团队经验、能力不断传承和提高的支撑下,系统安全稳定运行是可以实现的目标。技术团队密切协同,全力以赴,一定可以做到科学的保障系统安全运行。
声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。