软件系统应急预案
为加强XXXX有限公司(以下简称我司)XX软件系统的安全管理与
维护,提高处理系统突发性系统异常事件的能力,确保系统各项功能的稳定运行,特制定本应急预案。该预案旨在建立紧急状态下的快速响应、快速定位、快速处理的应急机制,增强紧急情况下的应急处理能力,进一步完善我司XX软件系统保障体系。 一、总则 (一)目的
为科学应对XX软件系统突发事件,建立健全XX软件系统的应急响应机制,有效预防、及时控制和最大限度地消除各类突发事件的危害和影响,制订本应急预案。 (二)工作原则 1.统一领导
遇到系统重大异常情况,应及时向有关领导报告,以便于统一调度、减少损失。 2.重点突出
应急处理的重点放在运行着重要业务数据或可能导致严重事故后果的关键数据服务器上。 3.快速恢复
系统维护人员在坚持快速恢复系统的原则下,根据职责分工,加强团结协作,必要情况下与系统开发部门以及设备供应商共同谋求问题的快速解决方法。 4.及时反应,积极应对
出现系统故障时,系统维护人员应及时发现、及时报告、及时抢修、及时控制,积极对XX软件系统突发事件进行防范、监测、预警、报告、响应。
二、应急工作小组机构及职责
在系统事件的处理中,一个组织良好、职责明确、科学管理的应急队伍是成功的关键。组织机构的成立对于事件的响应、决策、恢复,防止类似事件的发生都具有重要意义。结合我司XX软件系统的实际情况,将有关应急人员的角色和职责进行明确划分如下。
1.应急处理领导小组
及时掌握系统故障事件的发展动态,向上级部门报告事件动态;对有关事项做出重大决策;启动应急预案。 组长: 副组长: 成员:
2.应急处理工作小组
快速响应运营专员发现的系统故障事件,进行系统故障的诊断、排查和恢复操作。 工作小组成员: 三、应急处理程序
(一)XX软件系统突发事件分类分级的说明
根据系统突发事件的发生原因、性质和机理,系统突发事件主要分为以下三类:
1.攻击类事件:指系统因计算机病毒感染、非法入侵等导致业务中断、系统宕机、网络瘫痪等情况。
2.故障类事件:指系统因计算机软硬件故障、人为误操作等导致业务中断、系统宕机、网络瘫痪等情况。
3.灾害类事件:指因爆炸、火灾、雷击、地震、台风等外力因素导致系统损毁,造成业务中断、系统宕机、网络瘫痪等情况。
按照突发事件的性质、严重程度、可控性和影响范围, 将其分为一般故障、严重故障、重大故障、特级故障四级。 1.一般故障
系统中单个功能故障,但未影响业务系统运行,也未对甲方造成影响或经济损失的突发事件。 2.严重故障
系统中个别功能模块故障而导致业务中断,可能对甲方造成严重影响或较大经济损失的突发事件。 3.重大故障
系统中多个功能模块故障引起的多个基础功能损坏,导致系统长时间中断,可能对甲方造成重大影响和巨大经济损失的突发事件。 4.特级故障
特指发生不可预见的灾难性事故,如火灾、水灾和地震等。
(二)系统应急预案启动
根据以上定义的故障分级,当系统事件的要素满足启动应急预案要求时,进入相应的应急启动流程。
(1)应急处理工作小组从业务人员的故障申告得知系统异常事件后,应在第一时间联系甲方科技部门。
(2)应急处理工作小组通过远程对系统事件做出初步的分析判断。若是服务器系统宕机、网络中断或者能在最短时间内自行解决的网络问题,及时按照有关操作规程进行故障处理。
(3)应急处理工作小组向领导小组报告,在领导小组的授权后启动相应的应急预案。针对灾难事件和影响重要业务运行的重大事件,还要及时向上级机关进行报告。
(4)应急处理工作小组根据故障类型及时与相关部门技术人员取得联系。采取有力措施进行故障处理,及时恢复系统的正常运行状态。
(5)总结整个处理过程中出现的问题,并及时改进应急预案。 (三)现场应急处理
如遇到严重故障和重大故障,影响甲方系统的正常运行,技术部要迅速、及时地赶到现场, 进行相应突发事件的应急处理。 四、保障措施 (一)应急演练
为提高系统突发事件应急响应水平,定期或不定期 组织应急预案演练;检验应急预案各环节之间的通信、协调、指挥等是否符合快速、高效的要求。通过演习,进一步明确应急响应各岗位责任,对预案中存在的问题和不足及时补充、完善。 (二)硬件资源保障
为了在系统设备发生故障时能够尽量降低系统数据的受影响程度,做好数据库备份,在应急情况下使用。 (三)文档资料准备
包括网络系统拓扑图、 IP 地址及服务器登陆密码复杂程度情况等。
(四)技术支持保障
建立预警与应急处理的技术平台,进一步提高系统突发事件的发现和分析能力,从技术上逐步实现发现、预警、处理、通报等多
个环节以及相关部门之间应急处理的联动机制。 五、网络安全防范措施 (一)网络安全防范
客户软件系统应用完全按照《XXXXXX号文》要求搭建应用,采用三台服务器架构,核心区,安全区,半安全区方式部署。核心区服务器采用ORACLE数据库数据存储,通过FTP方式下载数据包进行分析存储至数据库。内网服务器与因特网物理隔离,严禁将外来的计算机和其他终端设备接入甲方内网网络系统中。
安全区与半安全区服务器搭载LIUNX系统,数据库为MYSQL,数据库进入方式采用独立用户,独立加密密码 ,DB服务器和web服务器分离,系统采用双用户管理模式,交替才可进入,登陆密码采用32位安全加密密码。数据包通过网闸进行传输。
网络使用ssl安全证书,域名采用https协议,防止信息泄露。 (二)设备安全防范
我司服务器设备都有较高的可靠性,特别是中心机房的内网服务器和外网服务器,磁盘阵列做的是raid5,为系统提供数据安全保障。把数据和与其相对应的奇偶校验信息存储到组成RAID5的各个磁盘上。当RAID5的一个磁盘数据损坏后,利用剩下的数据和相应的奇偶校验信息去恢复被损坏的数据。同时配有相应的阵列卡,有效提高磁盘读写速度。 (三)数据安全防范
外网服务器数据库每天都有全量的数据库备份,有效防范数据库损坏及数据丢失。 六、通用应急预案 第一节 保留日志
事件日志对于安全事件的处理和调查非常重要,安全事件可能在其刚刚发生时就暴露,也可能在发生的过程中或发生以后才被发现,因此所有安全事件都应该有一份书面的经过调查证明足够客观的日志,而且应该把日志妥善保存以免被修改。由于在线日志很容易被修改和删除,所以手工记录是必要的。应该记录的信息有: 1.与事件相关的所有电话的日期和时间; 2.相关事件发生(或者发现)的日期和时间; 3.处理相应事件所用的时间;
4.值班人员或事件协调小组通知的人员和与事件相关的人员; 5.受影响的功能模块及受影响的使用部门。 第二节 通知相关的人员
通知相关的人员是非常关键的。有些处理决定必须由开发部门分管领导来做,同时运营专员还应及时通知使用该系统的甲方工作人员。
第三节 事后分析
在安全事件处理完毕,所有系统恢复正常以后,应该针对事件进行分析。集中所有相关人员来讨论所发生的事件以及得到的经验教训,并对现有的一些流程进行重新评审,对不适宜的环节进行修改。 七、分类突发事件应急处理措施 (一)数据安全紧急处置措施
当发现有数据损坏或丢失后,应立即向系统维护人员报告。系统维护人员在接到通知后,应在第一时间将数据恢复。 (二)系统中断紧急处置措施
系统维护人员接到报告后,应迅速判断故障节点, 查明故障原因。若能直接处理,由系统维护人员立即予以恢复;若需甲方科技部门配合处理,立即与甲方科技部门联系,及时恢复。 (三)设备安全紧急处置措施
服务器、存储设备等关键设备损坏后,应立即向系统维护人员报告。
1、系统维护人员立即查明原因。
2、如果能够自行恢复,应立即用备件替换受损部件。
3、如属不能自行恢复的,立即与设备提供商联系,请求派维护人员前来维修。
4、如果设备一时不能修复,应向处理工作小组组长汇报, 启用备用设备。
(四)供电中断后的设备运行预案
1、机房断电,服务器重启后,软件系统系统设置有开机自启动服务。 2、若自启动服务启动失败,系统维护人员应及时手工启动。 八、附则
(1)本预案所称系统突发事件,是指由于自然灾害、设备软硬件故障、内部人为失误或破坏等原因,软件系统的正常运行受到严重影
响,出现业务中断、系统破坏、数据破坏等现象,造成不良影响以及造成一定程度直接或间接经济损失的事件。
(2)本预案通过演习、实践检验,以及根据应急力量变更、及时进行修订和完善;所附的成员、联系方式等发生变化时也随时修订。 (3)本预案自发布之日起实施。
因篇幅问题不能全部显示,请点此查看更多更全内容