IT服务持续性管理
ITSCM,即IT服务持续性管理(IT Ser vice Continuity Management),是指负责预防灾难发生、增强IT基础架构的恢复能力(Resilience)和容错能力(Fault Tolerance),并在灾难发生后迅速恢复IT服务正常运作的服务管理流程。
IT服务持续管理的目标是,通过确保在灾难发生之后IT基础架构和IT服务(包括相应的支持服务和服务台)能够在规定的时间内得以恢复从而支持总体的业务持续管理(BCM)。IT服务持续性管理可能有多个不同的具体目标,但其范围必须基于业务目标而确定。在评估业务持续性所面临的风险时,需要确定这些风险是否处于IT服务持续性管理流程的范围之内。
图-1中显示了IT服务持续性管理的活动。
启动阶段
服务连续性管理通常在可用性管理结束后继续解决可用性管理无法或没有解决的可用性风险。
一旦风险被确定,用户必须在IT人员的帮助下决定哪些风险需要缓解,哪些风险需要承担。
需求和战略阶段
? 业务影响分析
? 风险评估
首先,必须确认相关的IT组件(资产),包括建筑物、系统和数据等。有效的资产确认要求有关每个组件的所有者和用途都必须文档化。
其次,要分析这些资产所面临的威胁以及这些威胁之间的相关程度,并估计灾难发生的可能性(高、中、低)。例如,不稳定的电力供应和一个易于遭受风暴的地区这两个因素就存在较大的相关性。
接着,要确认这些资产的薄弱环节,并进行分类(高、中、低)。一个避雷装置可以保护建筑物免受雷击的破坏,但雷击仍然可能严重地影响到网络和计算机系统。
最后,需要根据各IT组件的具体情况评估威胁和薄弱环节,从而评估风险的级别。
在评估风险时应当考虑在第1个阶段已经定义好的IT服务持续性管理流程的范围。例如,对于一些小的问题可以由服务台和(或)事故管理流程来应付,或者由可用性管理措施来解决。有些业务风险则不属于IT服务持续性管理的范围。
不同的组织对灾难有不同的定义,通常是通过业务影响分析来测量业务损失的影响,如财务损失,声誉和规则的破坏。
实施阶段
? 制定IT服务连续性计划
大部分的企业都希望在风险降低和恢复规划方面达到某种平衡。风险降低措施、业务恢复行动以及IT恢复方案之间是有明显的区别的。风险降低(预防)和恢复规划(恢复方案)之间的关系将在下面进行讨论。
威胁是不可能完全消除的,比如在大楼附近的一场火灾也可能烧毁你的大楼。此外,降低某一种风险又可能导致另一种风险的增加,如外包就可能增加安全方面的风险。
? 预防措施
在充分考虑了预防措施的成本和风险的级别后,可以根据风险分析的结果采取预防措施。有些措施的目标是减小意外事故发生的概率或影响,因此也可以缩小恢复计划的范围。例如,可以针对灰尘、超高温或超低温、火灾、漏水、电力中断以及失窃制定预防措施,而将其它风险留给恢复计划来处理。
要害/关键控制法是用得最多的预防形式。它可以消除大部分的薄弱环节,例如通过建立自己的电力和水供应储备来应对电力和水供应方面的薄弱环节。但是,随着非现场恢复变得越来越困难,这种方法的应用也会带来其它诸如网络中断或网络拥塞等薄弱环节。要害/关键控制法可适用于大型的计算机中心,这些大型的计算机中心一般都太复杂以至于不能通过恢复计划来解决。如今,增强要害/关键控制法的快速反应能力是至关重要的,即及时发现问题并在其失控之前将其解决的能力。
?选择恢复方案
如果还存在部分没有被预防措施消除掉的残余风险,则应当将这部分风险交由恢复规划来处理。恢复方案应该提供下列措施来确保业务的持续性:
人员和场地-如何应对其它假定情况的发生,所需要的家具,运输和旅行的距离,以及支持业务所需要的关键人员;
? 组织计划
? 测试
运作管理阶段
有效的流程控制取决于关键成功因素、管理报告和关键绩效指标,关键成功因素(CSF)和绩效指标(KPI)
IT服务持续性管理的成功依赖于:
? 有效的配置管理流程;
? 整个组织的支持和承诺;
? 最新的和有效的工具;
? 对流程中涉及的所有人员进行专门的培训;
? 对恢复计划进行定期测试。
绩效指标包括:
? 确认的恢复计划中的缺点的数量;
? 由于灾难所导致的收益减少。
? 流程的成本。
管理报告
在灾难发生后,必须提供一份有关灾难发生原因及影响,以及如何成功应付的报告。所有观察到的弱点都必须在改进计划中得到处理。
IT服务持续管理流程所提供的管理报告还应当包括恢复计划测试的评价报告。这些报告被用来保证流程的质量。该流程还需要报告由于发生重大变更而导致恢复计划作出变更的数量。有关新出现的威胁也应当纳入报告范围。
职能和角色
IT服务持续性经理的职责是实施和维护ITSCM流程,从而保证该流程任何时候都能满足业务持续性管理的需求。IT服务持续性经理还需要在业务持续性管理中代表IT服务部门。IT服务持续性管理涵盖了业务持续性管理中的诸多方面,包括业务持续性管理中威胁IT服务持续性的一些风险以及在影响不可预见情形下恢复服务的能力。它涉及一个企业持续提供预先确定和协定的用以支持最低业务需要的IT服务的能力。通常IT服务持续性管理和灾难恢复是互换的。事实上,IT服务持续性管理就像是灾难恢复的扩充。只是灾难恢复是被动的,而IT服务持续性管理是主动的,是关于整个系统的复原能力的。它以战略、基础架构、建筑以及服务持续性的方式来看灾难恢复。
IT战略一般是通过信息技术、系统和服务来定义组织的方向和目标的。从这个角度讲,IT服务持续性战略可以被定义成为确保IT服务持续性战略的政策和标准能直接、明确地支持IT战略目标。IT服务持续性战略的六个要素是:了解业务需要,约定服务等级;检查IT战略方案及更新目标;定期实行风险评估及依赖性建模型化;考虑如何支持ITSC战略;运行、维护以及审核持续性和恢复计划;监控改善服务的表现。
IT服务持续性是一个在机构内部很难去推行的理念,是一个专业领域。然而,许多组织可以委任涉及该项目的专家进行管理,这必然会使组织受益匪浅并将其资质提升到认证水平。像Unisys这样的组织可以协助企业IT服务持续性管理,包括骨干网络的设计,DR运作咨询,基础架构的建立,测试和研究,基础架构、安全监测和管理,数据中心服务,应用托管或管理服务,经营管理服务,并制定一项全面的IT服务持续性计划。这不仅为已知威胁做准备,也为建立操作弹性、从未知威胁或计划外的事件中恢复做准备。
许多经理都认为IT服务持续性管理是一种奢侈,为此他们不愿意花费任何资源。然而,统计资料表明许多具有破坏性的灾难实际上经常发生。
“灾难”比“事故”要严重得多。它是一次业务中断。这意味着在一次灾难发生后,全部或部分业务不能正常运作。常见的灾难包括火灾、雷击、水灾、失窃以及暴力破坏等。此外,恐怖袭击也变得越来越常见。互联网也可能带来灾难,如能够中断整个组织的通信联系的“拒绝服务(DoS)”式攻击。有些公司本来是可以阻止此类严重问题发生的,如果其考虑和制定了相关的业务持续性计划。业务运作越来越依赖于IT服务,这意味着服务失败的影响也越来越大和越来越不可接受。事实上,对很多公司来说,做业务就意味着使用IT,离开IT他们几乎不能创造任何收入。因此,考虑如何保证业务运作的持续性是非常重要的。
传统的意外事故规划通常只是被IT部门用来免除其责任的一种形式。然而,如今IT已经越来越与业务运作的许多方面密切结合在一起。与传统的意外事故规划只是反应性的(在灾难发生之后该做什么)流程不同,新的IT服务持续性管理流程侧重于预防,即避免灾难的发生。
当我们看看在发生灾难时一个企业需要做什么的时候,我们就会明白有两种类型的活动必须同时进行。企业的IT机构必须执行灾难恢复计划恢复IT基础架构、应用程序和需要支持关键业务流程的数据。在IT基础架构正在恢复的过程中,企业需要用人工程序进行尽可能多的业务。如今,企业更应该实现IT服务持续性管理。