omniture

让IT自动化

2011-04-22 16:16

从手工账簿到财务软件,从柜台长龙到电子银行,从纸质流程到移动办公,IT让业务越来越自动化,越来越高效;但IT自身为什么不能更自动化些?

什么时候网络管理员能摆脱四处救火的消防员形象?什么时候数据库管理员能够从容应对海量数据的监控、管理?什么时候系统管理员能够吃着火锅、唱着歌,就能确保系统正常运行呢?

自动化 必须的

2010年5月份,第三方研究公司Coleman Parkes Research的调查研究结果显示,企业的IT支出呈现出 70/30 规则,即与新的IT计划相比,企业70%的钱都花了现有系统的运维上。而IT运维人员70%的精力和时间都花在了日常巡检、系统发布、配置等基础运维工作上。

的确是如此。在4月9日举行的“自动化:IT的未来——惠普软件IT自动化用户研讨会”上,一位不愿透露姓名的某国有大型银行技术经理以其数据中心为例向记者介绍,复杂的架构、繁杂的工作、严格的流程、纷繁的系统、众多的管理团队和离散的操作,让系统运维工作占用了大量的资金和人力成本,但实际效果却不怎么样。

因为集中复杂的服务器、网络和存储部署与多点分布的业务应用之间存在大量的相互依赖的关系,在复杂的架构下,“要手工做持续的大量变更非常容易出错,且前后不一致;而在运维组、调度组、安全组等不同的团队及系统之间的调度和协作也因缺乏标准化控制而凌乱;在各自独立的系统视图下对网络、服务器、存储等基础设施竖井式的分离管理也让运维工作不能体现出整体效应。”这位技术经理感慨地说。

一方面,企业既需要用自动化工具替代手工操作,把IT人员从繁琐的日常运维工作中解放出来,使其不再做重复劳动,可以有更多的时间去做更具创新、更有价值的事情;另一方面自动化也能解决一旦系统出现问题后,各个岗位互相扯皮、责任不清的问题。

“无论是从人工成本还是系统效率还是支撑业务创新的角度看,IT自动化都是必然的趋势。”中国工商银行数据中心安全部副总经理敦宏程肯定地对记者说。

光大银行运行管理处项目经理张宪铎也对记者说,“各银行具体环境不太一样,得根据银行自己实际情况综合考虑,在风险可控的前提原则下,自动化应该是个大方向。

业务导向的运维

“现在很多监控、管理工作是孤立的,网络、服务器、数据库、业务之间不相互关联。一旦业务出现问题,没有一个统一、简单、可控的监控与管理,不能自动化,无法高效地解决问题。” 惠普全球运维管理资深专家Jonathan研讨会上以美国大型医疗药品供应商麦克森(McKesson)的数据中心自动化运维为例,介绍了当前IT运维的现状和难点和自动化IT的价值。

当然,IT自动化的价值不只是在于保障系统本身的正常运行,降低运行成本,提高运行效率,更重要的是要高效、灵活地实现IT对业务的支撑,应对加速变化的业务流程,与业务融为一体,不断创新。

惠普软件技术总监于志伟用医院急诊的例子介绍了瞬捷企业对IT自动化需求的必要性。“一名昏迷的病人被送进急诊室抢救,扫描一下,这名病人的病史、过敏史等所有信息就都展现在了医生面前,医生就可以对症采取急救措施了。在医院,时间就是生命。试想如果没有自动化的IT手段收集、快速查询、传输这些信息,抢救情况会多么糟糕,而单靠人工是不可能做到的。”

另外,他也说,现在企业对CIO的期望,不再只是保证系统的可靠性和可用率,而是得面向业务,更加敏捷、高效地去适应业务流程,通过IT获取更多的业务机会、增长利润、体现竞争优势。而通常情况下,要实现这些CIO不得不还得面临的一个“残忍”现实是并没有增加新的IT预算。还是原来那些钱,但却要做更多事,那么CIO就必须简化IT,通过IT自动化实现创新的目标。

在于志伟看来,IT自动化分为三个阶段:第一个阶段是单个任务自动化,用自动化工具取代日常手工作业,比如服务器自动巡检、自动化测试应用上线等,这样可以解放IT人力等资源投入到其他创新项目,这个阶段是目前大多企业都可以做到的;第二阶段是自动化IT流程,依据ITIL等标准化的最佳实践,实现配置、变更、事件等管理的自动化,将过去要用2-3个小时做的事情现在用几秒钟完成,这阶段是IT应用相对成熟的金融、电信等行业用户正在做的;而第三个阶段就是要实现服务自动化,比如上线一个ERP系统、CRM系统,过去可能需要5个月,而通过自动化,通过云服务就可以2个小时完成。于志伟说,怒目前很多企业都是已经实现了服务器、网络、存储等基础设施的自动化,而面向业务的流程和服务自动化则是大势所趋。

Jonathan则针对目前IT运维的现状,提出企业先要整合网络、存储、服务器等各自的监控管理平台成一个平台,然后从业务出发,看业务需要落实什么,再将业务与IT紧密关联,并通过恰当的支持体系实现整个运维过程的自动化。

在会上,惠普软件自动化专家陈禾也向与会嘉宾介绍了惠普针对数据库和中间件自动化的DMA解决方案。他认为,针对数据库和中间件自动化的DMA是基础架构到应用之间的一个连接纽带,是一个非常重要的连接点。

关键是基础脚本库和流程库

已经有两年数据中心自动化建设经验的某大型银行数据中心负责人向记者介绍了他们的经验。

“我们当时做自动化建设的起因是运维工作面临着三大困难:一是随着数据中心的业务发展,运维的规模不断膨胀,管理体系不断增加,但人手却没有增加,有限的人手怎样面对复杂的运维环境是当时最突出的矛盾。第二个困难就是在配置管理部分,因为从系统安装到后期运维的整个运维生命周期内,配置管理信息非常多。作为普通的系统管理员,面对海量的配置要求,如何能一次性地、准确地奖信息输入电脑非常关键。第三就是在数据中心的日常项目管理方面,相关软件的部署和运维不能100%覆盖整个系统,总会有5%部分的系统是没有覆盖到的。这是因为今天的数据中心已经涵盖包括软件、传输、ITM监控等非常多的产品,普通的系统管理员很难全部掌握全部产品的运维知识和技能。”这位负责人说。

如何解决这些困难呢?自动化是非常好的方法。从2009年开始,该行开始了自动化建设一期的建设。立项之初,项目就设立了三大目标,第一是做什么,就是要建立跨平台、面向服务的自动化运维管理体系。第二是怎么做,核心环节是什么,就是要发展不完善的基础脚本库和基础流程库,这两样是其整个自动化运维的核心关键。“只有把脚本库和流程库很规范地建设好后,才能在复杂的环境中推进自动化运维,否则虽然自动化在某些情况下能提高工作效率,还是会带来负面的风险。” 他说。

第三就是组织架构,数据中心怎样协调系统部、应用部、运维部、调度部、安全部等各个技术水平不一的部门共同实施自动化,必须得有方法、有制度。“我们不断将自动化的知识、理念、平台的使用方法等做知识转移,让像系统部、应用部等技术能力较强的部门接受自动化工具,同时也协调一些流程管理部门,像安全部、调度部等,让他们的日常工作也越来越自动化。”

经过两年的努力,该负责人介绍,该行已经实现了系统运维的自动化,包括配置信息的收集、系统日常健康检查等,把日常重复、简单、可控的工作,纳入自动化范畴;其次就是实现了一些操作的自动化,比如数据中心网上批量处理的自动化;还有灾备切换的自动化。

他以系统健康检查自动化为例,向记者介绍他们的具体做法就是将健康检查的标准、规范的前提形成一些脚本,通过自动化运维平台定时地调用这些脚本,生成的报表可以快速地反馈到运维人员的信箱。“当时我们就是每天晚上大概三四点钟的时候,定时执行这个自动化任务。每天早上九点钟,系统管理员上班打开电脑就可以从他的邮箱里面看到昨天晚上整个系统的运维情况。他就不用再花时间到不同的平台上去检查这些参数,只要对这些报表进行浏览,再对他觉得有疑点的地方做正式的检查和排查。通过这种方式,在节省时间和人力成本的同时,确保了系统的可用性,降低了发生问题的风险。”

自动化的前提是风险可控

自动化虽是大势所趋,但记者采访发现,用户对于自动化还是非常谨慎的。敦宏程认为其实银行有些流程环节是必须要有人介入的,不能什么事都自动化。敦宏程认为,要推进自动化,供应商产品的成熟度也是他们要考虑琢磨的重中之重。因为曾经他们遭遇尴尬的自动化事件,有个项目中,他们需要部署几百台某其他品牌服务器,预备采取自动化部署方案,预留的部署时间就很短,结果在在第二天要投产之前发现自动化部署有问题,他们不得不把所有人集中在机房,一人几台机器趴在地板上连夜手工装机器。“可控性是我们考虑的第一要素。”

北京京东方光电科技有限公司自动化部部长邢明海也表示,出于安全的考虑,需要从效率和控制两方面均衡考虑配比自动化和手工两种方式。

张宪铎认为自动化和手工会有慢慢转化的过程,就像复杂和简单之间也是在慢慢转化一样。他说,目前对光大银行来说,可以自动化的还是那些常规性、重复性的简单操作,他们现在主要做的还是把相当于眼睛和耳朵的监控工作做到位,通过对基础设施和业务的监控,及时发现问题,保障系统和业务的可用性和连续性。推进自动化的最终原则就是风险可控,风险可控的前提下把繁琐操作自动化提高效率是好事,但如果风险不一定可控,就不能冒冒失失地推进自动化。

饭要一口一口吃,路要一步一步走。企业的IT自动化之旅,得按部就班、循序渐进。

案例链接:

麦克森的自动化故事

麦克森是美国的一家大型医疗药品供应商,在全球500强排名34,在财富500强的美国公司中排名第14,年营业额1060亿美元,是美国医疗药品批发领域的头一把交椅,有超过4万家的药店,同时它还是医疗流程系统提供商,像医疗记录、药方的合规审计等领域的软件都是由麦克森提供的。

麦克森的问题有两个,一是它基础设施和业务应用的监控相互独立,一旦业务出现问题,无法定位问题源于何处;二是其系统的应用可靠性和性能非常重要,因为系统宕机一小时,麦克森就损失上百万美元,而在线销售药品的部分,页面反馈时间超过8秒,消费者就会离它而去。

麦克森现在采用了一套IT基础设施监控软件,但是系统没有集成,应用组件、存储、网络和监控软件之间完全孤立,流程全是通过手工来做,大量的事件无法处理。于是麦克森开始系统改造,业务部门和IT部门共同提出了项目需求:提升服务管理水平,缩短平均修复时间(MTTR),降低成本并提升流程一致性,提升业务服务可视性,集成监控并实现自动化。

经过比对筛选,麦克森最终选择了惠普。项目目标就是要实现所有基础设施监控与事件关联,实现事件的处理和故障恢复的自动化。项目分为两期:第一期是采用惠普的一些监控工具和自动化的工具实行监控的自动化和故障采集的自动化;第二期是实现故障解决的自动化。

项目共需要管理麦克森的3000台服务器。第一期项目中,他们着重对事件进行关注,用自动化的方式定位事件的根源;然后注意在流程处理过程中保持测试的准确性,保持处理策略的一致性,用很多即插即用的插件实现监控的标准化管理。

项目一期实现了自动化的从事件发生到处理到结束的闭环事件处理流程。项目4亿美元的投入不到半年就收回成本了。通过自动化,麦克森节省了大量的工作时间,SLA水平也得到了显著提升。

而麦克森自动化的经验就是先把自动化门户建起来,用一些自动化工具去解决流程,但是这并不意味着直接用自动化,而是先手工运行一段时间,流程稳定的时候再让它自动去实现。如此下来,所有事件都能很好地解决。接下来麦克森还会利用惠普的新平台做业务与基础设施关联的实时互动模型等。

 

(责任编辑:王少青)

消息来源:CIO360