您的当前位置:首页正文

应急预案

2024-04-01 来源:易榕旅网
第1章 应急预案

1.1 应急响应计划

应急计划是指一项已识别的风险事件发生时,项目团队将采用预先确定的措施。例如:管理项目团队知道,一个新的软件包不能及时发布,他们将不能将其用于他们的项目上,那么他们可能会有一个应急计划。

1.1.1 应急响应计划的制定

应制定信息系统的应急响应计划,其中至少应该包括以下几个方面的内容:

➢ 应急响应的目标; ➢ 应急响应所涉及的范围; ➢ 应急响应工作组织架构; ➢ 参与人员的角色和职责; ➢ 应急响应的流程; ➢ 应急响应的更新机制; ➢ 应急响应工作的考核。

业务系统应急响应计划须经相关管理部门批准,符合国家相应规定的特定要求。

1.1.2 应急响应计划的培训

每年在一定时期应对员工进行应急响应计划的基本培训,使员工熟悉紧急响应的流程,明确各自的角色和责任。在培训中应提供紧急响应事件案例进行讲解分析,提高处理问题的能力。

模拟紧急响应事件环境进行实际的演练,提高实际操作能力。 每当出现重大事件后或出现相应响应流程调整后立即进行培训。

1.1.2.1 应急响应计划的测试

应周期性地测试应急响应计划。

出现应急计划的调整后立即进行相应测试。

1.1.2.2 应急响应计划的执行

应严格按急响应计划进行事件处理。

对每一次执行过程和结果向有关部门报告。

1.1.2.3 应急储备计划

应急储备是项目发起人为了应对项目范围或质量上可能发生的变更而持有的预备资金。它可用来转移成本风险或进度风险。例如:如果项目因为员工不熟悉一些新技术而导致其偏离既定的轨道,那么项目发起人会从应急储备中提出额外的资金,来聘请公司外的咨询师,培训和指导项目人员采用新技术。

在本项目运维服务过程中,对项目组人员突出:“防范为主,加强监控、总结经验、及时响应”意识教育,宣传普及运维应急保障技术服务知识,经常性地做好系统环境中突发事件的思想准备、预案准备、机制准备和工作准备,提高运维技术服务的综合保障水平。加强对系统隐患的预警与监测,发现和防范重大信息系统突发性事件,及时采取有效的可控措施,迅速控制事件影响范围,力争将损失降到最低程度。

1.2 应急事件故障的描述

1.2.1 故障的分类

1.2.1.1 网络故障

网络故障按网络故障的性质主要为物理故障、逻辑故障;按照网络故障的对象主要分为线路故障、路由器故障和主机配置不当。

1.2.1.2 主机及硬件故障

硬件故障主要包括主板故障、CPU故障、内存故障、存储故障、网络模块故障、I/O故障等。

1.2.1.2.1 故障处理预案

建议每个中心做一套备品备用机,以应对硬件设备故障后立即恢复使用

1.2.1.3 链路故障

链路故障包括传输介质故障、传输链路干扰等内容。

1.2.1.3.1 故障处理预案

目前主业务系统设计为双链路,设有专线MPLS链路和备用的VPN链路,专线故障自动切换到VPN链路运行。

1.2.1.4 系统软件故障

系统软件故障主要包括操作系统故障、并行文件系统故障、共享文件系统故障、数据库故障、分级存储管理软件故障、备份软件故障、大文件传输系统软件故障。

1.2.1.4.1 故障处理预案

目前中心业务传输为本地z储设计系统设计为双链路,设有专线MPLS链路和备用的VPN链路,专线故障自动切换到VPN链路运行。

1.2.1.5 应用系统故障

应用系统故障包括各应用系统产生的硬件、软件等故障。

1.2.1.5.1 故障处理预案

应用系统搭建为双系统备份,发生故障会自动切换,并且有负载均衡做数据均衡,分摊到备份系统中处理数据。

1.2.1.6 人为故障

人为故障主要包括网络硬件操作故障、系统软件操作故障、中间件操作故障、应用系统操作故障等。

1.2.1.6.1 故障处理预案

24小时业务咨询和技术保障,协助前方排查认为故障并处理解决问题。

1.2.2 故障的分级

结合预警分类惯例,故障划分为四个等级,严重程度由重到轻为:

1.2.2.1 一级故障

因特别重大突发事件引发的,有可能造成数据传输大面积中断、系统崩溃等情

况,以及需要系统保障应急准备的重大情况,属于一级故障,一级故障在本系统内可被认为灾难性故障。例如因各种原因造成的数据同步丢失、系统崩溃、传输长时间中断、资料严重残缺,而且难以恢复,都可以被认为是灾难性故障。

1.2.2.2 二级故障

因重大突发事件引起的,有可能造成系统运行异常、数据资料丢失等需要系统保障应急准备的情况,属于二级故障,二级故障在本系统内可以被认为紧急性故障,有很强的时效要求。例如由于短时间内数据传输峰值过高导致各应用系统间无法完成数据传输而出现系统崩溃等需要及时派出的故障。

1.2.2.3 三级故障

因较大突发事件引起的,有可能造成具体应用系统单点或多点运行故障,属于三级故障。例如由于系统文件被误删导致系统运行不稳定等情况。

1.2.2.4 四级故障

因一般事件引起的、影响比较轻微的故障,属于四级故障。例如由于上报的监管数据长期格式不规范导致系统无法处理从而一直抛出异常,错误日志和无用数据积压等情况。

1.2.3 项目故障事件列表

故障级别 故障分类 一级故障 二级故障 全部用户范围下网络中断时间 2~10分钟 部分用户范围下网络中断时间 大于10分钟 全部用户范围下设备断电或无响应时间 2分钟~10分钟 三级故障 全部用户范围下网络中断中断时间 小于2分钟 部分用户范围下网络中断中断时间 2~10分钟 全部用户范围下设备断电或无响应时间 小于2分钟 四级故障 网络故障 网络设备 通讯链路 全部用户范围下网络中断中断时间 大于10分钟 部分用户范围下网络中断中断时间 小于2分钟 硬件故障 网络设备 主机设备 存储设备 全部用户范围下设备断电或无响应中断时间 大于10分钟 部分用户范围下设备断电或无响应时间 安全设备 部分用户范围下设备断电或无响应时间 大于10分钟 全部用户范围下应用系统中断、无响应时间 2~10分钟 部分用户范围下应用系统中断、无响应时间 大于10分钟 文件系统被破坏、业务数据丢失 项目故障事件列表 应用系统故障 全部用户范围下应用系统中断时间 大于10分钟 部分用户范围下设备断电或无响应时间 2分钟~10分钟 全部用户范围下应用系统中断、无响应时间 小于2分钟 部分用户范围下应用系统中断、无响应时间 2~10分钟 系统文件丢失 小于2分钟 部分用户范围下应用系统中断、无响应时间 小于2分钟 系统软件故障 操作系统 数据库 中间件 系统崩溃 系统日志报警

1.3 针对本项目应急人员组织

应急预案的人员组织分工根据故障发生时的职责分为四类: 1、项目组领导

在紧急告警发生时,对应急工作进行统一指挥和组织调配。 2、项目组相关人员

包括本项目相关人员,在重要告警和轻度告警发生时负责对所辖范围内的应急工作进行统一指挥和组织调配;在紧急告警发生时协助项目组领导进行应急指挥工作。

3、一线运维驻场人员

特指本项目日常运维人员,在故障发生时负责故障恢复,或协助应用系统软件集成商及软硬件原厂商进行故障恢复。

4、二线后备团队人员、应用系统软件承建商

系统的提供方,对系统负有故障排查和故障恢复责任,在紧急告警、重要告警和轻度告警发生时负责故障恢复,在警示故障发生时负责配合运维人员的故障恢复工作。

在故障发生时,以上四类应急人员根据故障的等级承担不同的职责,如下表所

示:

故障人员职责分配表(☆——指挥△——配合指挥√——解决○——电话配合解决)

故障等级 紧急告警 重要告警 轻度告警 警示 使用方项目领导 ☆ 使用方项目组相关人员 △ ☆ ☆ 一线运维驻场人员 √ √ √ √ 二线后备团队人员 √ △/√ △/√ √ 应用系统软件承建商 √ √ √ √ 软硬件原厂商 √ √ √ √ 1.4 针对本项目应急响应处理流程

应急报告流程总集成商应用系统软件承建商软硬件原厂商运维人员甲方项目组相关人员甲方项目组领导发生故障判定故障等级重要告警轻度告警判定故障等级紧急告警重要告警轻度告警启动应急预案警示紧急告警统一指挥人员调配统一指挥人员调配警示电话支持故障恢复评估报告结束 应急报告流程图

应急报告流程甬道图如上所示。运维人员在系统发生故障时,首先对系统故障分级进行判定,并进行故障分级响应针对本项目应急处置。

1.5 一级故障处理预案

1.5.1 预案目的

本预案为针对本项目运维实施过程中紧急告警故障处理专项预案,其目的主要是为了进一步规范处理方法和处理程序,提高对此类事件的反应速度。

1.5.2 适用范围

本预案适用于针对系统运维实施过程中紧急告警故障情况下的应急响应工作。

本预案启动后,其他运维应急预案与本预案相冲突的,按照本预案执行。法律、法规和规章另有规定的从其规定。

1.5.3 启动条件

本预案的启动条件为:发现针对系统运维实施过程中紧急告警故障现象时启动本预案。

1.5.4 处理预案

(1)应急分级:紧急告警

(2)响应时间要求:一线运维驻场人员需要立即响应,如需要二线后备团队人员、应用系统软件承建商及软硬件原厂商到场支持,需在2小时内到达数据中心机房现场并解决问题。

(3)参与人员:紧急告警响应,服务经理立即组织项目组成员组建事件处理小组,同时视情况协调使用方运维小组和使用方项目组相关领导的参与。

(4)汇报层次:应首先汇报给服务经理,服务经理需要在第一时间汇报给使用方项目组领导,及本项目组技术负责人,整个事件响应由使用方项目组领导统一协调。

(5)调用资源:紧急告警响应需要在部局以及故障系统所属运维方博雅软件调动资源,涉及到的所有技术和非技术部门都无条件参与。以首先解决安全问题为原则,保障事件得到快速解决。

(6)事件处理过程:

1)判断是否存在网络故障及处置; 2)判断是否存在主机等硬件故障及处置; 3)判断主机故障及排除 4)判断是否是应用故障及排除;

1.6 二级故障故障处理预案

1.6.1 预案目的

本预案为针对系统运维实施过程中紧急告警故障处理专项预案,其目的主要是为了进一步规范处理方法和处理程序,提高对此类事件的反应速度。

1.6.2 适用范围

本预案适用于针对系统运维实施过程中紧急告警故障情况下的应急响应工作。

本预案启动后,其他运维应急预案与本预案相冲突的,按照本预案执行。法律、法规和规章另有规定的从其规定。

1.6.3 启动条件

本预案的启动条件为:发现针对系统运维实施过程中紧急告警故障现象时启动本预案。

1.6.4 处理预案

(1)应急分级:重要告警

(2)响应时间要求:重要告警需要立即响应,人员需在2小时内到机房现场解决问题。

(3)参与人员:紧急告警响应,服务经理立即组织项目组成员组建事件处理小组,同时视情况协调使用方运维小组和使用方项目组相关领导的参与。

(4)汇报层次:应首先汇报给服务经理,服务经理需要在第一时间汇报给使用方项目组领导,整个事件响应由使用方项目组领导统一协调。

(5)调用资源:紧急告警响应需要在部局以及故障系统所属运维方博雅调动资源,涉及到的所有技术和非技术部门都无条件参与。以首先解决安全问题为原则,保障事件得到快速解决。

(6)事件处理:

1)发布故障通知,通知重要用户故障情况;

2),启动相关应急预案,并配合排除故障; 3)配合验证故障排除情况;

4)故障排除后,取消故障通知,通知重要用户故障排除情况;

1.7 三级故障故障处理预案

1.7.1 预案目的

本预案为针对系统运维实施过程中紧急告警故障处理专项预案,其目的主要是为了进一步规范处理方法和处理程序,提高对此类事件的反应速度。

1.7.2 适用范围

本预案适用于针对系统运维实施过程中紧急告警故障情况下的应急响应工作。

本预案启动后,其他运维应急预案与本预案相冲突的,按照本预案执行。法律、法规和规章另有规定的从其规定。

1.7.3 启动条件

本预案的启动条件为:发现针对系统运维实施过程中紧急告警故障现象时启动本预案。

1.7.4 处理预案

(1)应急分级:轻度告警

(2)响应时间要求:轻度告警需要及时响应,人员需在4内到场解决问题。

(3)参与人员:轻度告警响应,项目小组组长立即组织项目进行处理,同时视情况告知项目经理协调部局应急工作小组和其他与事件相关的应急响应工作小组的参与。

(4)汇报层次:轻度告警应首先汇报给应项目小组组长,其视情况汇报给项目经理及使用方项目组相关人员及部局运维方,整个事件响应由使用方项目组人员统一协调。

(5)调用资源:轻度告警响应需要在部局以及故障系统所属运维方博雅、相关应用系统运维方调动资源,由项目经理协调解决。

(6)事件处理:

1)发布故障通知,通知重要用户故障情况; 2)通知相关资源提供方,进行配合故障排除; 3)故障排除后,配合进行故障排除验证;

4)故障排除后,取消故障通知,通知重要用户故障排除情况;

1.8 四级故障处理预案

应急分级:警示

警示属于日常运维服务范畴,事件处理应由项目组内部处理,或由项目组向相关运维方技术人员咨询,或由技术人员远程协助解决,并追查事件原因。

节点 服务器 解决故障通用流程 检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯闪烁表示加电但服务器没有开机;指示灯长亮表示服务器处于启动状态;也可检查电源上的指示灯,AC灯标示电源线接通电源正常,DC指示灯表示电源正常) 检查服务器报警灯是否为点亮 检查光通路诊断板或部件故障灯,判断故障部件 检查服务器诊断log或错误代码 检查操作系统错误log 根据判断结果更换故障部件 如有必要,可从备份恢复 检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯长亮表示存储处于启动状态;也可检查电源上的指示灯,AC灯标示电源线接通电源正常,DC指示灯表示电源正常) 检查磁盘阵列报警灯是否亮起 检查磁盘故障灯是否亮起(橘黄色表示磁盘故障) 检查控制器指示灯是否正常(指示灯熄灭或橘黄色表示控制器故障) 检查控制器上的光纤模块指示灯(指示灯熄灭或橘黄色表示连接故障) 通过管理口检查磁盘阵列的配置和log 检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯长亮表示存储处于启动状态;也可检查电源上的指示灯,AC灯标示电源线接通电源正常,DC指示灯表示电源正常) 检查报警灯是否亮起 检查驱动器上的光纤模块指示灯(指示灯熄灭或橘黄色表示连接故障) 通过前面板的菜单或管理接口登陆管理界面查看log 磁盘存储 磁带存储 节点 SAN交换机 解决故障通用流程 检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯长亮表示交换机处于启动状态) 检查交换机上的光纤模块指示灯是否正常(熄灭及橘黄色表示模块或连接有问题) 通过交换机管理口登陆管理界面查看交换机log及zone配置 检查电源指示灯是否正常(指示灯不亮表示没有通电;指示灯长亮表示交换机处于启动状态) 检查交换机端口或光纤模块的指示灯(状态灯熄灭表示连接故障或光纤模块故障) 登陆管理界面检查交换机配置和log 检查设备前、后面板状态指示灯的显示情况。 检查设备后面板所连接网线的状况。 正常登录,显示配置界面。 查看系统日志。 检查设备前、后面板状态指示灯的显示情况。 检查设备后面板所连接网线的状况。 正常登录,显示配置界面。 从网络审计数据中心看到引擎发过来的日志告警信息。 检查从硬件系统运行的稳定性日志 看到实时日志上报 检查设备前、后面板状态指示灯的显示情况。 检查设备后面板所连接网线的状况。 正常登录,显示配置界面。 查看系统日志。 设置安全策略 检查设备前、后面板状态指示灯的显示情况。 检查设备后面板所连接网线的状况。 正常登录,显示配置界面。 从数据库审计中心看到引擎发过来的日志告警信息。 检查从硬件系统运行的稳定性日志 看到实时日志上报 网络交换机 防火墙 网络安全审计系统 Web应用防护系统 数据库安全审计系统

因篇幅问题不能全部显示,请点此查看更多更全内容