容灾概念介绍
前言
容灾的一些名词、概念介绍
1、介绍
容灾恢复能力的关键指标
RPO(Recovery Point Obejective,恢复点目标)
是指业务系统所允许的在灾难过程中的最大数据丢失量,用来衡量容灾系统的数据冗余备份能力。
RTO(Recovery Time Objective,恢复时间目标)
是指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。 我国的国家标准《GB20988-2007-T 信息安全技术信息系统灾难恢复规范》对灾备数据中心根据RPO与RTO两项指标分成了6个相应的等级,如下所示:
2、等级
容灾等级 | RTO | RPO | 可用性 |
---|---|---|---|
3级 | <=24小时 | <=24小时 | 每年非计划服务中断时间不超过4天,系统可用性至少达到99% |
4级 | <=4小时 | <=1小时 | 每年非计划服务中断时间不超过10小时,系统可用性至少达到99.9% |
5级 | <=30分钟 | ≈0 | 每年非计划服务中断时间不超过1小时,系统可用性至少达到99.99% |
6级 | <=2分钟 | 0 | 每年非计划服务中断时间不超过5分钟,系统可用性至少达到99.999% |
3、通俗理解
4、容灾系统
按照容灾系统对应用系统的保护程度可以分为数据级容灾、应用级容灾和业务级容灾。
数据级容灾
仅将生产中心的数据复制到容灾中心,在生产中心出现故障时,仅能实现存储系统的接管或是数据的恢复。容灾中心的数据可以是本地生产数据的完全复制(一般在同城实现),也可以比生产数据略微落后,但必定是可用的(一般在异地实现),而差异的数据通常可以通过一些工具(如操作记录、日志等)可以手工补回。基于数据容灾实现业务恢复的速度较慢,通常情况下RTO超过24小时,但是这种级别的容灾系统运行维护成本较低。
应用级容灾
是在数据级容灾的基础上,进一步实现应用可用性,确保业务的快速恢复。这就要求容灾系统的应用不能改变原有业务处理逻辑,是对生产中心系统的基本复制。因此,容灾中心需要建立起一套和本地生产相当的备份环境,包括主机、网络、应用、IP等资源均有配套,当生产系统发生灾难时,异地系统可以提供完全可用的生产环境。应用级容灾的RTO通常在12个小时以内,技术复杂度较高,运行维护的成本也比较高。
业务级容灾
是生产中心与容灾中心对业务请求同时进行处理的容灾方式,能够确保业务持续可用。这种方式业务恢复过程的自动化程度高,RTO可以做到30分钟以内。但是这种容灾级别的项目实施难度大,需要从应用层对系统进行改造,比较适合流程固定的简单业务系统。这种容灾系统的运行维护成本最高。
5、容灾指标
衡量容灾系统的主要指标有RPO(Recovery Point Object,灾难发生时允许丢失的数据量)、RTO(Recovery Time Objective,系统恢复的时间)、容灾半径(生产系统和容灾系统之间的距离)以及ROI(Return of Investment,容灾系统的投入产出比)。
RPO
是指业务系统所允许的灾难过程中的最大数据丢失量(以时间来度量),这是一个灾备系统所选用的数据复制技术有密切关系的指标,用以衡量灾备方案的数据冗余备份能力。
RTO
是指“将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态”所需时间,其中包括备份数据恢复到可用状态所需时间、应用系统切换时间、以及备用网络切换时间等,该指标用以衡量容灾方案的业务恢复能力。例如,灾难发生后半天内便需要恢复,则RTO值就是十二小时。
容灾半径
是指生产中心和灾备中心之间的直线距离,用以衡量容灾方案所能防御的灾难影响范围。
RIO
容灾方案的ROI也是用户需要重点关注的,它用以衡量用户投入到容灾系统的资金与从中所获得的收益的比率。
结论
显然,具有零RTO、零RPO和大容灾半径的灾难恢复方案是用户最期望的,但受系统性能要求、适用技术及成本等方面的约束,这种方案实际上是不大可行的。所以,用户在选择容灾方案时应该综合考虑灾难的发生概率、灾难对数据的破坏力、数据所支撑业务的重要性、适用的技术措施及自身所能承受的成本等多种因素,理性地作出选择。
- 原文作者:Anttu
- 原文链接:https://anTtutu.github.io/post/2018-12-04-disaster_recovery/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。