IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
随着IT建设的不断深入和发展,IT系统的运行维护已经成为运维管理者普遍关注和不堪重负的问题。在过去的5年中,很多企业都实施了很多IT系统,使到IT运行越来越复杂,也越来越难管理。调查结果显示有50%的受访运维管理者认为IT运维成本过高的一个原因是IT运维的自动化做得还不够好,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人。
当下,IT运维已经成为企业的必需品,企业关注的是如何提高IT运维的效率,从而实现IT资源利用率的最大化。国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括训练、教育、人员流失、招聘成本等。因此,如何提高IT运维管理效率,降低运维成本是时下IT界和运维管理者最热门的话题之一。
一.传统式IT运维管理面临挑战
目前许多企业的IT运维虽然已经实现从人工运维到计算机管理,但这只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的措施,所以传统被动的、孤立的、半自动式的IT运维管理模式经常是让IT部门疲惫不堪。主要有以下几个方面:
(一)运维人员被动低效率手工救火
在IT运维过程中,IT员工被动低效率手工救火,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业的IT运维现状是如此:①IT运维人员日常大部分时间和精力是处理一些简单重复的问题;②由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且故障还常常会出现恶性连锁反应。
(二)缺乏一套高效的IT运维机制支撑
目前许多企业现有的IT运维机制存在如下问题:IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,并及时地找到相应的人员进行修复和处理;或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。
(三)缺乏高效的IT运维技术工具
随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。
尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因并不复杂。目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。还有,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。
二.为什么自动化是IT运维的发展趋势?
(一)为什么IT运维需要自动化?
所谓IT运维管理的自动化是指通过将日常IT运维中大量的重复性工作,小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份,杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。
首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。
(二)IT运维自动化管理的具体内容
IT运维管理,是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如硬软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。IT运维管理主要包括七个方面的管理内容:
设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理;
应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;
数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;
业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标KeyPerformance Indicators);
目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息管理;资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;
信息安全管理:目前信息安全管理主要依据的国际标准ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。
(三)、IT运维自动化需关注的两类工具
对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:①监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等。②配置变更检测自动化是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置。③维护事件提醒自动化,是指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人。④系统健康检测自动化,是指定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控。⑤维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
四、基于ITIL的IT运维自动化平台构建
20世纪80年代,英国政府为了提升信息化设备和系统的运行效率,指定当时的英国政府计算机与通信局,研究开发一种方法,用于指导全国政府部门高效、经济地运营信息化设备和系统,结果产生了信息技术基础架构库(Information Technology Infrastructure Library—ITIL)。ITIL供组织内部进行IT服务管理的参考经验,它汇集了IT服务业内的最佳实践,是指导如何在运维管理中定义人员、流程、服务活动及其之间关系的指导框架。
ITIL的框架包括业务管理、服务管理、IT基础架构管理、安全管理、应用管理、IT服务管理规划等,其中最核心的是服务管理中的服务支持和服务提供。IT主管部门可能更关心服务支持,服务支持主要包括:服务台、故障管理、问题管理、配置管理、变更管理和发布管理等六个模块。
可以借鉴ITIL的思想来构建全面的基于ITIL的IT运维自动化平台。主要包括如下几个核心部分:
(一)IT服务管理基础平台
搭建IT服务管理基础平台系统由应用服务器、数据库服务器、客户机组成,使用分布式部署,减轻核心服务器的压力。创建用户类型、定义安全机制、代码表配置、组织结构数据建设、人员数据建设、资产数据装载,制作统计报表。
(二)服务台建设
数据中心服务台负责全行服务请求的处理和转发,技术上主要是对服务台工作人员进行培训,掌握全面的运维知识,熟悉服务台职责;管理上主要是制定服务台运维管理制度,明确服务台人员的工作内容与操作规程。服务台是用户申报事故以及获得事故处理结论的统一入口,主要工作包括以下几个方面,一是完成响应服务请求,处理常见的运维事件,将不能解决的事件升级;二是发布相关的运维信息,如网络、业务系统、设备故障等;三是协助提高IT部门事故处理质量,增加用户满意度,形成有效的事故处理和踪的手段。
(三)事故管理建设
借鉴IT服务管理的经验,为了灵活实现运维系统各个流程建设,在实践中简化了流程以适应运维工作的需要。在事故处理流程建设中,管理标准的做法是直接将事故送到服务台,由服务台负责处理或者分发,而实际工作中,将业务系统的监控事件直接送到业务管理系统的管理员,服务台负责监督事故处理完成的情况。
(四)问题管理建设
问题管理管理员直接手工新建问题工单,或者由服务台或事故管理来触发问题工单管理流程。当问题由于成本与技术等原因暂不消除时,可定为已知错误,后期可继续处理。找到问题的根本原因,并提供临时措施与根本解决方案,防止问题再次发生或减少问题的数量。
(五)配置管理建设
配置管理数据库储存与管理企业IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,一方面支持这些流程的流畅运转、发挥配置信息的价值;另一方面,帮助技术人员受到服务请求时获取相关技术支持,同时依赖于相关流程保证数据的准确性。
在建设初期通过配置项自动发现,整个企业IT架构的配置项导入配置项,为了保证数据的准确、全面、我们要求业务系统、设备等管理人员提供、核对相关数据,保证在运维中能准确利用数据进行运维。
(六)变更管理建设
确保在IT服务变动的过程中能够有标准的方法,以有效的控制变更,降低或消除因为变更对业务运营所造成的影响与问题。由专家和技术顾问组成,对提交的变更请求(RFC)进行评审,并最终裁定是否批准实施该变更请求。变更审计管理,通过自动化管理系统定期对配置项进行自动扫描,发现企业IT架构中的非法变更,管理员根据变更的信息,选择变更恢复或者进入变更流程,帮助管理人员进行变更的审计管理。
(七)发布管理建设
通过正式的流程确保只有经过完整测试与得到授权的软件与硬件才能够进入正式运行环境,以确保变更后生产环境的质量。发布的最终结果将会反映到自动化管理系统中。
(八)知识库建设
将成熟可行的解决方案录入知识库,进行数据共享,快速排除故障,从而达到提高用户“自助式服务”能力的目的。当运维人员进行事故、问题、变更和发布运维流程时,可以根据不同资源类型,自动关联该类型的知识条目,帮助运维人员快速解决问题。知识库的自身管理,包括建立、审核、分类、评价、订阅、收藏、搜索知识等,需要经过知识库管理员审核后才能进入知识库。
结语,随着社会的发展和信息化的进步,IT运维服务管理必将是一个长期性的话题,需要运维管理业内人员进行不断的研究和进取。实现IT运维自动化管理是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。