您的当前位置:首页正文

数据中心灾备体系设计

2021-11-22 来源:易榕旅网
数据中心建设专栏

2009年3月10日第3期

FINANCIALCOMPUTEROFHUANAN.

数据中心灾备体系设计

■中国人民银行广州分行

张宗杰

黎凯伦

摘要:随着各金融机构数据中心建设的推进,数据风险集中的问题愈发突出,因此必须依托有效的灾备体系为数据中心的稳定运行提供保障。国家对此相当重视,2008年颁发了第一部银行业灾备建设的技术规范———《银行业信息系统灾难恢复管理规范》(以下简称《规范》),以指重点介绍了实际工作中灾备需求分析和灾备导各金融机构的灾备体系建设。本文在此基础上,体系设计的要点,以供参考。关键词:金融信息化;灾备体系;需求分析;体系设计数据中心灾备体系设计主要由三部分组成:灾备需求分析、灾备技术体系设计与灾备管理制度设灾备需求分析是根据数据中心的业务特点与系计。统特点,分析存在的风险;灾备技术体系设计则是为达到灾备需求的目标而进行的具体技术实现;灾备管理制度设计则是为确保灾备系统规范运作而设立的管理制度。由于《规范》中对灾备管理制度的设计已经提出了比较明确的设计方法与要求,本文将不再赘述,而将重点放在介绍灾备需求分析与灾备技术体系设计方面,为相关工作的具体实施提供参考。3.脆弱性识别,即识别可能被威胁利用的信息资产的弱点,主要包括技术与管理两个方面。技网络层、系统层、应用层等各术脆弱性涉及物理层、个层面的安全问题;管理脆弱性可分为技术管理脆弱性和组织管理脆弱性两方面,前者与具体技术活动相关,后者与管理环境相关。具体分析活动可通过问卷调查、工具检测、人工核查、文档查阅和渗透性测试等方式开展。完成风险分析后,需要根据灾难发生的可能性、灾难发生后的损失预计等因素,计算对应的风险值,进行风险分级,为后续分析工作提供参考。(二)业务影响分析1.定义业务影响分析(BusinessImpactAnalysis,BIA)的目的是确定不同业务遭遇到风险后对企业的影响程度。通过分析有形的和无形的影响,估算对停止业务时间长短的接受情况和使影响降至最低的处理需求,对灾备的具体实现提出明确要求。BIA的目标包括:(1)识别和量化每个业务单元或者资源对整个企业在业务运行方面的影响;(2)识别潜在的失效场景和评估潜在的威胁;(3)定义针对不同的灾难恢复要求所需要的不同级别的投资情况;(4)建立灾难恢复时的恢复流程优先级,指导灾难一、区域数据中心灾备需求分析

(一)风险分析全面详尽的风险分析是数据中心灾备体系设计的基础,风险分析方法包括:1.资产识别,主要包括:基础设施、硬件、软件、数据、文档、服务和声誉等。单位应对资产进行分类,以区分资产的不同重要程度并确定重要资产的范围,应对资产进行标识以区分资产对业务正常运作的影响程度,据此确定资产的等级。2.威胁识别,即识别信息资产构成潜在破坏的可能性因素,如自然因素与人为因素,内部因素与外部因素等。MAR.10,2009NO.32

数据中心建设专栏

FINANCIALCOMPUTEROFHUANAN.

2009年3月10日第3期

备份恢复策略的制订。2.BIA业务影响分析的方法(1)业务功能地位分析。可从业务功能的政策要求、是否核心业务、业务涉及的机构与用户范围、业务处理实时性与频度、业务功能与机构内外其他业务功能的关联等多个角度综合分析。(2)业务中断影响评估。主要包括两个方面,一是以量化的方法,评估业务中断可能带来的直接与间接经济损失;二是以非量化的方法,评估业务中法律影响、信用影响、品牌影断所引发的社会影响、响等。业务影响分析最终将影响对灾难备份体系的需求,根据《规范》的要求,灾备体系的需求必须明各等级对应的最低恢复要求以及恢复确需求等级、的优先级。主要指标是RTO(RecoverTimeObjec-tive),即灾难发生后,信息系统从停顿到恢复正常的时间要求,以及RPO(RecoverPointObjective),即灾难发生后,数据必须恢复到正常状态的时间要求。灾难恢复能力等级与上述两项指标的参照要求如表1所示。表1灾难恢复能力等级及RTO、RPO指标要求灾难恢复能力等级

123456

RTO2天以上24小时以上12小时以上数小时至2天数分钟到2天

数分钟

RPO1天至7天1天至7天数小时至1天数小时至1天0至30分钟

0

备环境提供参考。2.应用部署特点分析。主要分析各类应用部应用之间的数据依赖关系、应用正署平台的情况、常运行需要数据质量、应用正常启动和异常启动需要的时间等关键因素,作为灾备中心应用体系构建的基础。二、区域数据中心灾备技术体系设计

(一)灾备模式的基本体系架构“同城灾备”、“异地灾备”以及灾备模式主要有“同城—异地灾备”三种主要方式。同城灾备,是指灾备中心与生产中心处于同一城市内,可同时采用同步备份与异步备份技术。其具有最低的投资成本,最快的灾难恢复速度,极高的数据保障,但无法应对区域性的灾难风险。异地灾备,是指灾备中心与生产中心在不同的城市,一般只能实现异步备份。其投资成本较高,灾难恢复速度与数据保障能力略低,但可应付广泛的灾难风险。同城—异地灾备则是两者的结合,投资成本最高,但同时具有前两者优点。同城—异地模式也分两种实现方式,一种是首先建立同城灾备中心,然后异地灾备中心实现对同城灾备中心的备份;一种是同城灾备中心与异地灾备中心分别独立为数据中心实施备份。具体选择何种灾备模式,需要综合考虑所面临业务特点、成本投入等多种因素。由于的风险特点、数据中心面临的重大风险绝大多数都发生在数据中心范围内,而同城灾备中心在业务迅速恢复方面具有比较突出的优势,因此同城灾备中心的建设一般是必须的。灾备模式的选择建议如下。1.全国性数据中心采用同城—异地灾备模式。由于其业务系统与数据的影响面广,由此必须采用最为可靠的灾备模式。2.建立总中心—区域两级数据中心的机构,在区域数据中心建立同城灾备,并通过数据总中心的异地灾备中心,实现对各区域数据中心的集中式异地灾备。当区域数据中心出现严重故障时,可通过同城灾备中心实现对全省业务的迅速接管,而出现区域性重大灾难时,可通过数据总中心的异地灾备中心实现区域业务的恢复。这一模式既减少了区域自建异地灾备中心所需的庞大投资,又能提供全面的灾备保护。(二)灾备中心基础环境建设灾备中心基础设施建设应重点考虑以下因素:1.选址。灾难备份中心与生产中心之间距离合理,应避免灾难备份中心与生产中心同时遭受同(三)基础架构分析数据中心技术体系分析是灾备技术体系建设的基础,灾备技术体系与数据技术体系匹配程度的高低,决定了灾备中心对数据中心生产环境的可替代程度,对于高效实现灾难恢复,提高灾备中心可用性有重要意义。对数据中心技术体系的分析主要从以下两方面入手。1.基础运行环境分析。在确保灾备中心与数据中心技术架构基本一致的前提下,明确所需要的设备类型和数量,对机房配电、空调、地板承重以及布线的具体要求等基础环境信息,为选择具体的灾3

MAR.10,2009NO.3数据中心建设专栏

2009年3月10日第3期

FINANCIALCOMPUTEROFHUANAN.

类风险。综合考虑生产中心与灾难备份中心交通和电讯的便利性与多样性,以及灾难备份中心当地的业务与技术支持能力、电讯资源、地理地质环境、公共资源与服务配套能力等外部支持条件。2.基础条件。机房环境要求与主中心相同,各防火、防静电、承重、分区项建筑基础环境(如防雷、隔离等)、供配电环境、温湿度空调环境、消防和监控安全环境等,都应参照生产数据中心机房环境设计,至少达到生产数据中心机房环境所属等级要求。考虑到灾备恢复情况下额外的外部技术支援,灾备中心在工作人员容纳方面应作适当考虑,以保证有足够空间容纳一定数量的技术人员集中协同办公。3.建设方式。灾备中心的建设方式可采用自建、共建与外包建设等方式,三种方式各有优势,需要结合各类机构的实际情况加以选择。自建是指金融机构独立建设区域数据中心,此模式具有较高的可靠性与安全性,但投入庞大,适用于大型金融机构。共建是指数家金融机构共同规划投资,建设参与各方共同使用的区域灾备中心。共建模式减少了各方的投资压力,但需要各方充分协调,有效实现灾备中心的建设管理,参与机构不宜过多,适用于中型金融机构。托管是指将区域灾备中心由专业的灾备服务商建设管理,金融机构向其租用灾备物理环境,实现数据与系统的区域灾备体系建设,此模式充分利用了灾备服务专业化的优势,在最大限度减少建设投资的同时,为信息系统提供可靠保护,适用于中小型金融机构。(三)网络备份体系设计数据中心与灾备中心应建立网络热备份体系,当数据生产中心无法正常工作时,业务数据流可自动切换到灾备中心,保证灾备中心的备份业务系统目前网络热备份技术已经比较顺利接管业务数据。成熟,可利用多种动态路由协议(如OSPF,BGP等)实现。网络备份设计参考要点如下。1.建立核心网络热备体系。数据中心是面向某个区域的庞大数据处理节点,必须在核心网络层面(如广域网、核心服务器运行的局域网)实现热备,才能保证灾备中心对区域内通信的可靠性。同时,前述灾备中心的选址要求,决定了数据中心与灾备中心之间必须建立广域网互联,因此在广域网层面实现线路热备显得尤为必要。2.灾备中心网络容量设计。灾备中心网络容量应与生产中心网络容量基本一致,网络应采用一致的技术标准。灾备中心与数据中心同步传输的链路,其带宽必须大于数据中心的峰值数据变化量。因此,同城灾备网络,应灾备中心与生产中心之间应建立光纤网络。3.灾备网络应与数据中心网络采用不同运营《规范》明确要求,灾备中心对外的通商物理线路。信线路应采用与数据中心不同的运营商,降低风险关联。而数据中心与灾备中心之间同样需要建立两条不同运营商通信线路,以捆绑技术建立两地路由器互联,从而提高两地之间通信的可靠性,确保热备功能的有效性。4.尽量建立数据中心网络与灾备中心网络的负载均衡,有利于提高灾备网络利用率与提高灾备网络可用性。灾备中心网络基本是数据中心网络的复制,目前网络热备份技术主要有两种模式。一种是主—备模式,数据流正常情况下使用数据中心生产网络,当数据中心生产网络出现故障时,才使用灾备中心网络。这一模式实现简单,但灾备网络日常实际并不使用,既造成资源浪费,也不利于提高灾备网络的可用性。另一种是负载均衡模式,正常情况下数据流同时使用两个中心的网络,生产中心网络出现故障时,则全部数据流向灾备网络。后者的实现技术比较复杂,需要专用负载均衡设备支持,但可以充分利用网络资源,也可以在日常使用中验证灾备网络的可用性,建议尽可能采用此模式。(四)数据环境备份设计1.备份介质目前主流的备份介质包括磁带库、虚拟带库与磁盘阵列。虚拟带库是将低性能磁盘组模拟成磁带方式进行读写存储的备份介质,它既保留了磁带顺序写入在数据备份过程中特有的高性能,又可避免磁带受外环境破坏、不宜多次读写的缺点,有利于但虚拟带库与数据保存与对备份数据的恢复验证。磁带库同样存在读取效率低的缺陷,只适用于数量庞大而RTO要求较低(恢复能力等级为3以下)的磁盘阵列则是以普通硬盘读写的方数据备份环境。式,对数据进行备份的备份介质。磁盘阵列一般由具备高性能磁盘所组成,并通过高容量缓存与I/O负载均衡技术提高数据读写效率,适用于RTO性能要求较高(恢复能力等级为3以上)的数据备份环境。2.备份传输(1)数据备份传输的技术选择数据备份复制方式主要有快照技术、异步复制、MAR.10,2009NO.34

数据中心建设专栏

FINANCIALCOMPUTEROFHUANAN.

2009年3月10日第3期

同步复制(如表2所示)。数据复制方式的选择主要取决于灾备需求分析中业务系统对RPO的要求。表2数据备份复制主要方式之比较异步复制技术通过缓存与批量处理

的方式,在较短的时延内,将数据中心生产数据复制到灾备中心

多分钟级以上

1.通过配置同步技术,实现数据中心应用环境设备的一致性。灾备中心的应用环境在技术路线、部署方面应尽量保证与数据中心同步复制技术同时对生产数据与灾备

中心数据进行同步写入的复制技术。在灾备中心数据成功写入前,数据中心存储系统将不处理后续的数据I/O请求

多毫秒级以上密切

快照技术数据指针定时对数据中心数据变化情况进行记录,并传输到灾备中心进行备份,两个快照时点之间的数据变化是不受保护

少30分钟以上

应用环境一致。这样有利于提高灾备应用环境与生产应用环境之间手工切换的效率,也有利于日常检验灾备应用环境的可用性。一般可通过灾备应用环境定期向生产应用环境读取配置文件、参数等方式,实现两者配置的同步。2.灾备中心关键型业务系统实现集群间自动切换,其余业务系统则采用手工切换模式。数据中心应用服务器一般通过HA等技术建立高可用性集群,保证原理

数据备份空间适用RPO对生产系统的影响

(2)数据备份传输的实现目前金融机构数据中心普遍建立了集中存储系统,因此存在存储传输网络与业务传输网络两套专用网络,从而派生出数据备份传输技术的三种实现方案———主机代理模式、存储阵列模式与代理模式。三种模式的选择主要取决于灾备恢复需求与可用于灾备建设的资源投入。从目前情况看,CDP方式是适用面较广的数据备份传输实现方式。比较情况如表3所示。表3数据备份传输三种模式之比较存储阵列模式

本地应用服务的高可靠性。同样,只要建立数据中心与灾备中心之间的高可用性网络监控技术,灾备中心备份应用服务器集群可实现与数据中心生产服务器集群之间的高可用性自动切换。为节约成本投入,建议对关键性业务系统采用此方式,以满足对于其余业务系RTO一小时以内的灾备恢复需求。统,只要如前所述,保证应用环境一致性,通过手工方式进行切换即可。3.采用虚拟化技术对备份环境进行整合。灾备中心应用环境备份资源毕竟有限,CDP代理模式

主机代理模式依托在业务主机中

的备份软件,对数据备份传输过程进行管理,并通过业务传输网络传输到灾备中心

充分利用备份应用资源对数据中虚拟化心应用环境保护十分重要。技术可实现一台物理应用服务器对多台逻辑服务器的虚拟。这样在数据中心里,大量性能要求不苛刻、RTO要求在数小时以上的应用系统灾备环境就可以集中部署在少数的硬件服务器资源中,有利于灾备中心尽可能提高对数据中心应用系统的灾备范围。参考文献:[1]银行业信息系统灾难恢复管理规范.中华人民共和国金融行业标准.2008.原理

部署专用的CDP备份设备,令

通过专用存储传输网CDP设备本身通过数据中心存储络,实现数据中心存网络实现对存储系统数据的同步储与灾备中心存储之复制,然后再以异步模式,将同步间数据复制复制后的数据通过业务传输网络

的空闲带宽传输到灾备中心

资源占用情况

占用一定主机资基本不占用主机资基本不占用主机资源,对业务网源,影响业务网络源,不影响业务网络络影响很小。

同步备份或异步备份

异步为主,也适用与部分同步备

份需求

适用备份方式异步备份建设投入

较低

高,需扩展存储传输

较高,需部署专用CDP设备

网,购置高性能存储很高

毫秒级别以上

较高分钟级以上

数据备份效率一般适用RPO

建议30分钟以上

(五)应用环境备份设计应用环境备份的目的是确保灾备中心能够快速重建数据中心应用系统环境,并实现备份业务系统对生产系统有效替代。对应用环境备份的设计要点包括:[2]刘晓辉.医院信息系统中灾备系统的设计与实现[J].医疗设备信息,2007.(责任编辑:徐虹)

MAR.10,2009NO.3

因篇幅问题不能全部显示,请点此查看更多更全内容