大型金融数据中心大规模迁移实践

(整期优先)网络出版时间:2021-04-08
/ 3

大型金融数据中心大规模迁移实践

蔡正清

戴尔(中国)有限公司上海分公司 上海市 200050

要:随着我国经济的快速发展,基于互联网的金融业务已深入我们的日常生活中,数据中心是支撑互联网金融业务运营的基石,数据中心的IT基础架构设备数量及业务数据量也急剧增加。对大型金融企业而言,现有生产数据中心在场地、规模、性能都已不能满足未来几年业务发展需求。为此需要将现有生产数据中心的业务系统迁移至规模更大、性能更好、等级更高的新数据中心,以确保未来能更好的满足业务发展需求。大型金融企业数据中心大规模整体迁移是一个非常复杂,非常有挑战性的工程,其涉及应用系统及软硬件环境种类繁多,品牌各异,设备数量庞大,应用关联关系复杂,停机时间窗口短,安全性要求高等各种因素导致数据中心的迁移难度增大,风险成倍增加。本文主要论述大型金融数据中心大规模迁移主要面临的难题及应对这些难题的有效解决方法,最终确保数据中心的生产业务系统安全平稳迁移至目标数据中心,满足业务的RTO及RPO,满足监管要求。


关键词:金融数据中心、数据中心迁移


1引言

随着金融科技及金融行业业务的飞速发展,金融企业的资产规模也随之越来越大,其业务系统也是越来越多,原承载这些业务系统的生产数据中心在其场地、电力、机柜容量、设备性能等各方面基础设施环境均已不能满足不断快速增长的业务需求。根据企业的IT战略规划及其整体灾备建设的布局考虑,现有生产数据中心需要整体搬迁至场地空间更大、机柜容量更多,性能更高的数据中心,更好的满足未来几年业务的发展需求。

江西省某城商银行由于业务信息系统数量繁多,且各应用系统之间的关联关系复杂。随着该银行业务的快速发展,当前的生产数据中心已不能满足业务发展需求。希望将现有生产数据中心业务系统迁移至等级更高的数据中心,并希望通过此次机会对基础架构进行重新规划及建设,以更大限度的提升业务运行性能,提升安全保护级别,增强IT系统抗风险能力。该行原生产数据中心有120余套业务系统分布在3个数据中心。为此,由行领导牵头,成立项目组领导小组。通过系统的规划及组织,在规划的时间内实现将生产数据中心的50多套生产业务系统及其约25T数据迁移至230公里外的目标数据中心。同时根据银保监会对其实现核心系统自主管控的监管要求,需将其托管在某大行在上海数据中心的核心业务系统及其周边系统从统一的版本库中分离出该行的核心版本,并迁移至相距900公里外的目标数据中心。整个项目涉及涵盖120多套应用系统,共有400多台设备,主要包含X86服务器、刀箱服务器、小型机、存储、一体机、网络设备。由于涉及应用系统众多,并且软硬件环境种类繁多,品牌各异,设备数量庞大。使的数据中心的应用系统迁移难度增大,风险成倍增加。如何安全、平稳的将信息系统迁移至新的目标数据中心将面临诸多挑战。

2金融数据中心大规模迁移的难点

数据中心大规模迁移是一项非常复杂的系统性工程,在工程实施过程中需要考虑各方面风险,并且要不断的及时识别未知风险,对已知风险采取有针对性的措施来为整个迁移工作的顺利进行提供保障。该迁移项目的主要实施重点难点如下所示:

  1. 正确梳理应用系统之间的关联关系。生产数据中心涉及系统有120多套,需要迁移的应用系统有50余套,迁移系统涉及全行对公、个人的存、贷款和结算、代收付等业务的核心系统及其周边系统,其各应用系统之间的关联关系复杂,如何梳理清楚迁移系统与不迁移系统之前的关键关联关系显得非常关键。

  2. 迁移批次划分的考虑。本项目50多套应用系统迁移至新的目标数据中心,在人力资源有限、风险可控的情况下,其迁移批次划分应该如何考虑才能确保各批次应用系统安全、平稳的迁移至目标数据中心。

  3. 在数据量大、带宽低,数据迁移复制技术的选择。迁移应用系统共有近25T的生产数据需要迁移,原数据中心与目标数据中心之间距离230公里,其网络专线带宽有限,如何在短时间内将大量生产数据迁移至目标数据中心;如何确保应用系统在规定的8小时内,甚至更短的时间顺利在目标数据中心恢复,并且稳定运行。在面临系统多,关联复杂,数据量大,带宽有限的情况下,数据中心的整体迁移将面临很大的挑战。

  4. 应用修改IP地址的选择。目标数据中心作为新的数据中心,其网络安全区域及IP网段都有统一的规划,迁移应用系统在新的数据中心是采用原网段系统的IP还是新网段的IP地址将是一个艰难的抉择。如采用新网段IP,那迁移应用系统自身要修改IP地址,与其关联的迁移应用系统和不迁移的应用系统都要修改其关联系统的新IP地址,在迁移当天有限的时间内不可能完成这些应用系统的IP地址的修改。在这样的情况下,应用系统之间复杂的关联关系该如何处理。

3金融数据中心大规模迁移的难点应对方法

3.1正确梳理应用系统之间的关联关系

由于本次迁移涉及关键的生产业务系统,该项目属于重大关键项目,全行各层级领导都非常关注项目的情况。在项目发现与分析阶段,第一步要明确统一当前生产数据中心运行的应用系统名称及数量,不能一套应用系统有多个不同的名称。如果存在这样的情况,这将导致后续系统信息混乱,影响后续的关联关系分析。然后以系统名称为角度,梳理清楚该系统的IT基础架构信息,IT基础架构信息主要包含IP地址、服务器功能、服务器角色、运行平台、操作系统、数据库、中间件、连接存储资源、第三方外联等信息。然后根据应用系统名称清单制定应用系统关联关系调研表,通过调研表来调研梳理与生产数据中心、其它数据中心及第三方单位的关联关系。所调研的关联关系主要包含服务方系统名称及IP、消费方系统名称及IP,关联系统类别(内部系统或第三方外联)、调用方式(IP/DNS & Port)、关联业务功能描述、关联类别(页面跳转、文件中转、系统调用)、对消费方系统重要程度、对消费方系统影响、对服务方系统重要程度、对服务方系统影响等等。

待各应用系统运维负责人完成应用IT基础架构及关联关系调研表的填写后。本人对应用关联关系表进行整理,确定所有应用系统名称是否统一。为防止应用关联关系遗漏,本人通过公式对各应用系统进行正向及反向的匹配核对,同时还对应用关联表中的IP信息与IT基础架构表中的IP信息进行匹配核对。然后针对遗漏的关联信息交由应用负责人进行进确认。待所有信息汇总完成后,再组织所有应用负责人及关键的开发人员一起对关联关系表进行逐一的讨论确认。

通过以上方法对50多套迁移应用系统的关联关系进行梳理,共梳理出近400条关联关系,其中通过正反对比分析梳理出遗漏的有80余条。这些关联关系信息为后续的搬迁批次划分、搬迁实施提供了重要的数据支撑。

3.2迁移批次划分的考虑

迁移批次的划分对数据中心整体迁移非常重要,如果批次划分不合理就会影响数据中心的整体迁移工作,甚至造成业务系统非计划性的中断。为此,在迁移批次划分方面要给予充分的考虑。批次的划分一般结合IT基础架构现状、应用关联关系、人员、技术、管理及风险等多方面考虑。在本项目中本人重点考虑以下几点,一是将应用关联关系紧密、数据交互量大、共享物理和逻辑设备、共用相同IP网段的应用系统放同一批次;二是无应用关联或弱应用关联,且重要等级低的系统放在首批次;三是业务运行时间要求相同的放同一批次,应用系统等级相同的尽量放在同一批次。

结合以上几点考虑及以往的经验,最终划分三个批次:第一批次,为重要等级低,且无应用间关联的独立系统,其目的是验证新数据中心的IT基础架构环境,验证迁移的流程和实施管理,为后续关键批次的迁移积累经验,查漏补缺。第二批次,将核心及其周边应用系统从上海迁移至目标数据中心。第三批次,关键的搬迁批次,利用相对较长的单一时间窗口,将剩余40套系统迁移至目标数据中心。

3.3数据量大、带宽低,数据迁移复制技术的选择

通过调研分析统计,本次迁移的50多套系统共有近25T的数据需要从原数据中心迁移至目标数据中心,但两中心的网络带宽只有100Mbps,这些数据不可能在迁移切换当天复制完成,也不可能将数据复制到硬盘中物理运输至目标数据中心,然后导入进系统。针对这个问题,本人对数据进行分类分析,这些数据主要有三种,第一种是VMWARE平台的虚拟机数据,第二种是基于DB2数据库的数据,第三种是NAS文件数据。针对这些不同的数据类型,采用不同的增量复制技术,并且至少提前3周进行数据初始化复制,将所有数据复制至目标数据中心,然后每天将变化的生产数据增量复制过去。安排周末非营业时间,在8小时内将系统按批次切换至230公里外的目标数据中心。

通过对市场上复制软件技术的对比及结合项目现状分析,VMWARE平台的虚拟机数据最终选定了VMware vSphere Replication软件,DB2数据库的数据复制采用基于EMC VMAX高端存储的SRDF异步复制技术,NAS文件数据采用基于主机的Rsync复制技术。这些都是市场比较成熟的复制技术,并且支持增量复制、数据复制压缩及端点续传功能。

3.4应用修改IP地址的选择

因本迁移项目涉及业务系统众多,各应用系统之间的关联关系非常复杂,且关联之多,并且原数据中心及目标数据中心中不能存在相同的IP网段。本人针对该问题提出三个方案:方案一,在迁移前分批次对迁移应用系统进行IP地址修改,改成目标数据中心新规划的IP网段地址,该方案可以避免迁移当天短时间内修改IP地址带来的风险,并且也可以对修改IP地址后的应用系统进行充分的业务验证,但是会对业务系统造成多次中断影响。方案二,在迁移当天进行IP地址修改,该方案只能限定在个别应用系统的IP地址修改,不可能同时对多套应用系统进行修改,并且要确保前期的关联关系调研非常准确。否则严重影响业务系统的正常恢复。方案三,在迁移前,对不迁移应用系统的IP地址修改成新的IP网段地址,迁移系统保留原IP网段地址。

通过评估方案三对业务系统影响最小,不迁移类应用系统都属于非业务类系统。迁移前可以进行充分的业务验证及时间解决故障问题,迁移当天不需要修改IP地址。最后通过向项目高层领导及项目组成员专家汇报评审,最终选定该方案执行。

4结论

该项目最终通过一系列的规划设计和实施管理在计划的时间内成功将核心业务系统从上海数据中心迁移至原生产数据中心,实现核心业务系统自主可控;再将核心及其它主要生产业务系统迁移至目标生产数据中心,实现小同城及大异地的“两地三中心”模式,有效提升数据中心的容灾能力和业务连续性水平,达成其项目目标,提高项目质量、并降低项目建设的整体风险。

本文介绍了大型金融数据中心大规模迁移过程中应用关联、迁移批次、数据迁移及IP改造的难点,针对这些难点提出了多种不同角度的考虑及应对方案。最终从人员、技术、风险、成本及业务等各个不同层面的综合考虑,选择最合适该数据中心及金融企业现状的迁移方法,并提出科学的建议,希望能为国内外金融企业的数据中心大规模迁移提供参考。

参考文献:

[1]中国银行业监督管理委员会,《商业银行数据中心监管指引(银监发[2010]114号)》,2010年4月

[2]中国银行业监督管理委员会,《商业银行业务连续性监管指引(银监发[2011]104号)》,2011年12月

[3]Gartner,Inc.《Fifteen Best Practices for a Successful Data Center Migration》, G00324187,2017年3月