方案
NetApp统一存储双活方案
1、双活存储架构建设目标
系统灾难是指IT系统发生重要业务数据丢失或者使业务系统停顿过长时间(不可忍受)的事故。可能引发系统灾难的因素包括: • 系统软、硬件故障,如:软、硬件缺陷、数据库或其他关键应用发生问题、病毒、通信障碍等;
• 机房环境突发性事故,如:电源中断、建筑物倒塌、机房内火灾等;
• 人为因素,如:因管理不完善或工作人员操作不当、人为蓄意破坏、暴力事件等;
• 自然灾害:如火灾、地震、洪水等突发而且极具破坏性的事故。其特点是突发性、高破坏强度、大范围。在灾难性事故的影响下,计算中心机房的硬件设备会部分或完全损坏,造成业务的停顿。 请参见下图:
当前用户IT系统缺乏有效的灾难防范手段,难以在灾难发生后,不间断或者迅速地恢复运行。灾难恢复就是在IT系统发生系统灾难后,为降低灾难发生后造成的损失,重新组织系统运行,从而保证业务连续性。其目标包括:
保护数据的完整性、一致性,使业务数据损失最少; 快速恢复业务系统运行,保持业务的连续性。
灾难恢复的目标一般采用RPO和RTO两个指标衡量。
技术指标RPO、RTO:
RPO (Recovery Point Objective): 以数据为出发点,主要指的是业务系统所能容忍的数据丢失量。即在发生灾难,容灾系统接替原生产系统运行时,容灾系统与原生产中心不一致的数据量。RPO是反映恢复数据完整性的指标,在半同步数据复制方式下,RPO等于数据传输时延的时间;在异步数据复制方式下,RPO基本为异步传输数据排队的时间。在实际应用中,同步模式下,RPO一般为0,而在非同步模式下,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性是不相同的,RPO表示业务数据与容灾备份数据的时间差。换句话说,发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。
RTO (Recovery Time Objective):即应用的恢复时间目标。RTO主要指的是所能容忍的应用停止服务的最长时间,也是是反映业务恢复及时性的指标,表示业务从中断到恢复正常所需的时间。RTO值越小,代表容灾系统的数据恢复能力越强。各种容灾解决方案的RTO有
较大差别,基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。容灾系统为获得最小的RTO,需要投入大量资金。 各种用户的应用对RTO要求不同,业务繁忙的关键业务需要较小的RTO,如果系统恢复时间过长就会影响到业务运行,而许多业务系统的RTO较长,如果一些较小灾难发生在非业务运行时间,那么对业务连续性几乎不会造成任何影响。各种容灾解决方案的RTO有较大差别,基于光通道技术存储区域网(SAN)的同步数据复制,配合远程备用业务系统和跨生产中心与容灾中心的高可用管理系统,这种容灾解决方案具有最小的RTO。相比较而言,普通磁带备份的RTO较长,当灾难发生时需要更长的时间恢复系统。 2、双活数据中心的价值和特点
双活数据中心技术,是目前业界最高级别的数据保护。如果和传统容灾技术相比,双活数据中心达到了SHARE 78中最高的Tier 6的所有要求。除此之外,双活数据中心还有以下特点和优势: 双活数据中心,实际上是跨数据中心的高可用。细分到单个组件看,形成了跨数据中心的主机高可用、网络高可用和存储高可用,实现的是跨数据中心的应用高可用。
双活数据中心具有“故障自愈”的特点,不需要人为干预,发生故障后,应用自动转移到可以正常运行的部分。而应用的运行不会受到影响。即RPO = 0和RTO = 0。这是容灾技术完全不
能够比拟的优势。
不同于容灾技术中“主中心-备中心”的主备概念,双活数据中心具有“双活”的特点,也就是说,业务可以分担到两个数据中心,同时运行,互为备份。相对于同步容灾,灾备中心设备往往处于空转状态,双活数据中心中的所有硬件资源都得到了重复的利用,避免了投资上的浪费,而网络要求完全是一样的。因此,双活技术不但降低了成本,而且增加了效率。 双活数据中心的常见架构如下: 两中心为对等配置
两中心之间需要低延迟的高带宽链路连接,一般需要裸光纤。xWDM设备往往被应用来实现链路复用,增加链路利用率
两中心之间为双活互备工作模式
注:双活存储也可部署在同机房,在这种情况下,双活架构对机房整体故障不具备防范能
力。
3、NetApp统一存储双活方案概述
结合业界现有的技术和实施经验,我们建议进一步完善和健全现有系统架构,全面提升应用系统可用性,满足业务系统需求:
• 采用存储级别的镜像技术实现双活数据中心,利用业界领先的技术,实现数据中心级别的高可用,可以有效防范各类物理故障,包括主机故障、网络故障、存储故障、交换机故障、机房区域故障(不包括机房整体灾难)等;
• 对于逻辑故障,例如数据库损坏、主机逻辑设备故障,可利用新购存储的先进技术,提供快速的恢复手段,实现: • RPO < 1小时 • RTO < 1小时
• 对于误操作造成的部分数据丢失,可利用先进的存储技术,在不中断生产库前提下,迅速从历史备份中恢复丢失数据,消除对业务的影响。恢复时间可低于1小时。
• 在双活存储架构建立后,未来进一步构建灾备系统,从而增强数据的安全性,灾备系统可按降档模式建设,在满足业务要求的前提下,避免过度投资。
综合以上的建设要点,可以分析得出,新购存储必须具备以下功能和技术特点:
• 具备秒级备份和秒级恢复功能,且该功能不影响生产性能 • 对于部分数据恢复,可从多个历史备份副本中选择,将备份库以只读打开,选择性地恢复数据
• 具备双活数据中心技术,获得第三方机构认证,例如VMware Metro Storage Cluster认证
结合NetApp多年方案经验,我们建议利用统一存储双活技术,构建同机房的应用级双活系统,具体拓扑图如下:
统一存储系统构建双活存储系统,共配置48块600GB 10K SAS磁盘和48块2TB 7.2K SATA磁盘,详细配置如下:
NetApp MetroCluster双活存储节点A
FAS 6220统一存储 类型 模块 控制器架构 控制器缓存 硬件 前后端接口 扩展磁盘柜 磁盘 软件 存储效率 配置描述 采用SAN + NAS 统一存储架构,与双活存储节点B共同构建MetroCluster双活系统 每控配置48 GB一级缓存,支持将SSD和闪存卡作为二级缓存 配置*个8 Gb/s FC主机接口、4个10 Gb/s IP主机接口、6个1 Gb/s IP主机接口、4个后端磁盘接口 配置*个24槽位扩展磁盘柜 配置24块600 GB 10K RPM SAS磁盘 配置24块2 TB 7.2K RPM SATA磁盘 配置FlexVol灵活卷管理软件、瘦供给功能、数据压缩和A-SIS块级重复数据删除功能 高可用性 数据保护 性能优化 存储管理 服务
售后服务 术 配置多路径I/O软件和MultiStore安全多租户软件 支持单磁盘RAID校验、双磁盘RAID校验和镜像保护技配置SnapShot秒级快照软件 配置FlexShare存储性能优化软件 配置OnCommand全图形化存储管理软件和Virtual Storage Console管理插件 3年7 x 24小时硬件和软件售后服务 NetApp MetroCluster双活存储节点B
FAS 6220统一存储 类型 模块 控制器架构 控制器缓存 硬件 前后端接口 扩展磁盘柜 磁盘 存储效率 高可用性 软件 数据保护 性能优化 存储管理 服务
双活方案预期效果:
售后服务 配置描述 采用SAN + NAS 统一存储架构,与双活存储节点A共同构建MetroCluster双活系统 每控配置*GB一级缓存,支持将SSD和闪存卡作为二级缓存 配置*个* Gb/s FC主机接口、*个10 Gb/s IP主机接口、*个1 Gb/s IP主机接口、*个后端磁盘接口 配置*个*槽位扩展磁盘柜 配置*块* GB 10K RPM SAS磁盘 配置*块*TB 7.2K RPM SATA磁盘 配置FlexVol灵活卷管理软件、瘦供给功能、数据压缩和A-SIS块级重复数据删除功能 配置多路径I/O软件和MultiStore安全多租户软件 支持单磁盘RAID校验、双磁盘RAID校验和镜像保护技术 配置SnapShot秒级快照软件 配置FlexShare存储性能优化软件 配置OnCommand全图形化存储管理软件和Virtual Storage Console管理插件 *年7 x 24小时硬件和软件售后服务 ➢ 有效应对各类极端的物理故障:
o 双控双活工作方式,不同于传统同步容灾技术中的主-备模式 o 控制器和存储网络交换机(FC和以太网)、磁盘扩展柜实现冗
余连接
o 极强的物理故障防范能力:任何主机、交换机、存储发生故障,业务不会受到影响,或者仅需快速接管,对业务的影响,远远低于同步容灾模式
o 采用NetApp专有的RAID-DP,可提供RAID10的性能和可靠性,同时也达到了RAID 5的经济性,同时结合SyncMirror可以实现更强的数据保护,在同一组资源池中支持至少任意5块磁盘损坏而不影响业务的连续性。
➢ 利用SnapShot快照技术,对数据库提供了秒级的数据备份和秒级的数据恢复能力,有效应对逻辑故障,极大地增强了业务系统的可用性:
结合SnapRestore软件(选配)和NetApp FAS独有的零性能影响秒级快照功能,可对数据库进行在线的、快速的和应用数据一致性的备份。备份窗口从原来的几个小时缩短为1~2分钟,仅仅为数据进入热备模式时间+1秒。对于同一个数据库,NetApp FAS系列支持多达255个时间点的历史备份。
方案优势:
采用NetApp FAS6220统一存储作为生产存储系统,FAS系列存储支持多种协议,包括FC-SAN、iSCSI、NFS、CIFS、FCoE、FTP、HTTP等,完全可以满足数据中心混合数据类型的存储需求。例如,统一存储通过FC-SAN为数据库提供高性能、低延迟的数据块服务,激活NAS功能后还可以提供共享文件的数据服务。
独特优势:其他厂家只能以多个系统组成一套多协议存储,不但复杂度大大增加,不利于管理和维护,可靠性也受到影响。而NetApp存储从设计开始,就考虑到了多存储协议的支持,而不像其他厂商,只能通过后期增加额外设备来支持多协议,因此NetApp一体化存储具有更高的集成度和更低的复杂度,可靠性也更好。
NetApp FAS存储可以通过多种方式提升存储性能,包括增加磁盘数量、添加二级缓存模块、升级控制器等等,其中FAS6220
双控最大可扩展至1200块磁盘,支持数TB 缓存,另外FAS6220存储可以无缝升级到高端的FAS6200存储而无需数据迁移。 独特优势:其他厂家往往只能通过铲车式的方式进行存储升级,还要涉及到数据迁移,不但很难保护用户原有投资,而且还会带来极大的数据风险。NetApp FAS不论高、中、低端存储均采用完全相同的DataONTAP操作系统,用户只需要更换控制器就可以完成存储升级,原有存储资源可以继续使用,大大简化了传统升级的复杂流程,也最大程度地保护了用户以往投资。 NetApp FAS存储系统具备强大的扩展能力,是唯一的集群统一存储解决方案。在数据大集中的业务系统中,必然是结构化、半结构化、非结构化多种数据类型的混合存储,传统双控制器的处理能力毕竟有限,集群系统会逐渐成为未来数据中心基础架构扩展的最主要模式之一,FAS6220存储最大支持8个控制器集群,完全可以满足用户未来几年内对于存储扩展能力的需求。
独特优势:在制造业应用需求下,单纯的SAN集群存储或单纯的NAS集群存储不具备实际部署的可行性,只有NetApp提供的FAS集群统一存储才能真正地契合应用的特点,并在真实环境中大规模部署。
FAS存储通过NetApp具有专利的SnapShot秒级快照功能对数据进行高效的保护,有效应对逻辑故障,大大地增强业务系统的可用性。一般来讲,快照的开启会严重影响存储系统的性能
表现,甚至是在很多国际厂商的存储解决方案中,“快照严重影响存储性能”至今仍然是个无解的难题,而NetApp早在多年前就在FAS统一存储上完美地解决了这个问题,这完全利益于NetApp的专利快照技术,根据第三方权威测试机构提供的测试结果,NetApp快照功能的开启完全不影响存储系统的性能,同时支持用户自助式恢复,最终用户可自行从快照中进行数据恢复,尤其在云平台和海量文档的环境下,可以极大地减轻管理人员的负担。
独特优势:NetApp FAS存储用最少的存储空间和存储性能代价,提供业界最高效的本地数据保护功能和最简便的数据恢复模式。
在可靠性方面,NetApp是业界仅有的两家通过IDC 99.999%可用性认证的公司,而且是全系列存储产品通过(请参见下图),因此,就可靠性而言,是一般的产品完全不能达到和匹配的。NetApp FAS存储采用业界独有的RAID-DP技术,可提供RAID10的性能和可靠性,同时也达到了RAID 5的经济性。
独特优势:NetApp FAS存储具备其他厂商所不能提供的第三方认证和评估,在可靠性上更具备说服力。
NetApp采用先进的控制器和缓存技术,不但极大地提高了存储总体性能,同时也将单个磁盘的性能发挥到极致。在SPC-1的性能测试(业界公认的第三方公开SAN性能测试)中,NetApp存储具备最领先的性能效率,下图对比了几种主流的SAN存储产品,其中EMC没有参加SAN性能测试,图中反映的是,在SPC-1测试中,单个磁盘可以提供的IOPS性能:
独特优势:在数据库和VM虚拟化这类对存储性能要求很高的应用环境中,同样的磁盘配置配置下,NetApp可以提供远高于竞争友商的性能,而在相同的性能需求下,NetApp存储所需要配置的硬件资源最经济。
海量的文档数据存储尤其是在系统整合部署了VM虚拟机后(VM虚拟的操作系统映像,至少有90%以上的数据是重复的),存储中实际上包括了很多的重复性资料,完全可以通过重复数据删除技术,在不影响使用的前提下,消除重复部分,减小对存储空间的占用,提高存储效率。
独特优势:和其他厂家基于文件的重复数据删除技术不同,NetApp重复数据删除技术基于数据块,因此,即便两个文件之间甚至是在一个文件内部,只有部分相同,也可以实现重复数据删除 – 这才是真正满足实际生产需要的技术。NetApp在主存储中提供的重复数据删除技术(NetApp是唯一一家在主存储中提供块级数据消重的厂商)。
NetApp存储除了提供OnCommand图形化管理软件之外,还提供云平台虚拟化架构下的管理集成模块VSC,允许在VMware/Citrix/Hyper-V的管理界面中对存储进行更加高效的管理。VM虚拟化环境中的很多管理操作,例如VM的扩大和缩小、生成新的VM并部署、VM和应用的快速备份和恢复等都需要调用存储的功能,为了简化管理,NetApp提供了VSC插件,所有操作均可在VM虚拟化平台的管理界面内完成,提高存储
的管理效率。
独特优势:NetApp FAS存储管理非常简单,不论高中低端的产品,还是双控架构和集群模式,管理模式完全一致,而且提供与虚拟化云平台的管理接口,可以实现存储的“设置后不管”。 NetApp NAS可加入现有的Windows AD环境,并实现Windows AD统一的用户认证和访问控制。NetApp还可提供存储级别的访问控制,由存储管理员进行设定。另外,还可进行文件访问、修改、删除等操作的审计设定,并交由安全管理员进行审核,从而实现文件管理的分权机制。
不同的业务数据部署在存储之后,共享存储的硬件资源,包括磁盘和控制器。如何实现应用性能的差异化管理?利用FlexShare技术(包括在基本包内),实现应用优先控制,保证核心应用的性能和I/O响应。这也是其他厂家不能提供的功能。 通过MultiStore安全多租户软件为不同应用的数据提供相对独立的存储空间,既能保护敏感数据的安全性,又能简化存储管理工作。 4、vSphere Metro Storage Cluster认证
VMware特别地为双活架构提供了一个存储认证:vSphere Metro Storage Cluster,包括NetApp FAS/V3200、FAS/V6200在内的几个厂家的不同产品都取得了此项认证。而VMware的白皮书“VMware vSphere Metro Storage Cluster Case Study”更是以NetApp MetroCluster为例,阐述了VMware如何实现双活数据中心。VMware
认证截屏见下图:
因篇幅问题不能全部显示,请点此查看更多更全内容