文/信息化管理部 市场部
快来呀,我的机器中病毒了,资料都没了。”三年前神州数码IT部门经常听到类似的声音。他们在内部层出不穷的技术故障之间像“救火队”一样疲于奔命,技术含量低,还经常出力不讨好。那么,IT部门能够摆脱“体力活”的桎梏吗?
答案是肯定的。
所谓突发事件,是指任何不符合标准操作且已经引起或可能引起服务中断和服务质量下降的事件。而突发事件管理的目的就是在出现突发事件的时候,能够尽可能快地恢复服务的正常运作,避免业务中断,以确保最佳的服务可用性级别。神州数码的突发事件管理可以概括为“一个流程、一个公告、一个报告、一个跟踪系统以及过程监控”。
一个流程
一个流程,即突发事件管理流程。针对突发事件,神州数码有严格的流程执行要求。首先,要区分突发事件的优先级。当IT服务台必须同时处理数个突发事件时,但受时间、资源和人力等的限制而无法实现时,就首先要排定突发事件处理的先后次序,即确定每个突发事件的优先级。确定优先级需要综合考虑突发事件对业务的影响情况、恢复服务对业务的紧迫性、突发事件的大小、范围和复杂程度以及当前可供突发事件处理的资源。神州数码根据故障对业务影响的重要程度、影响范围、和是否达到承诺的修复时间等要素确定突发事件的优先级为危急、紧急、一般三个类型,并针对不同的优先级,确定不同的突发事件解决时间要求。
当一线支持人员在规定的时间内不能解决或没有解决某个突发事件时,就需将这个突发事件的处理任务交给更有经验或有权限的支持人员,这叫突发事件升级。升级包含两条线。一条是技术线升级,指安排更多的专家或授予更多的特权(技术方面的)以解决事故,另一条是管理线升级,以达到通过更高的管理层协调更多的资源。
恰当和有效的突发事件升级机制对突发事件的成功处理至关重要,同时也对服务支持能力的有效提高相当关键。如果升级太迟或者升级层次不够,就有可能导致IT服务延迟,不能满足服务级别的要求,降低客户满意度。另一方面,如果升级过快或过度,又容易造成小题大作,反倒影响工作效率。
一个公告
突发事件的发生,直接影响的是IT应用的正常、稳定运行,影响业务部门正常的办公环境。因此,神州数码在突发事件发生时,在区分其优先级以后,把危急、紧急类突发事件及时在公司的内部网站中的IT服务专栏公告。
IT公告包括的要素:发生故障的IT应用、系统名称,故障的开始时间,预计结束时间(细化到时间:分),故障的影响范围,包括地点、业务范围。
一个报告
一个报告即在突发事件解决之后提交的故障报告,这是IT部门的重要“财富”。故障报告中对本次故障发生的时间、地点、性质、原因、影响范围、采取的措施、后续发生的可能性等进行总结,是本次故障的总结,也是后期的借鉴,这是IT部门重要的知识宝库。
报告因此在制度上保障了类似隐患可以得到有效避免和重复发生。另一方面,报告起到了清晰界定并记录故障责任的作用,尤其是在多服务商运作的模式下,这一作用就显得格外重要。
一个跟踪系统
即负责突发事件的登记、记录、分类以及优先级确定、升级流程“CASE跟踪系统”。相关人员可以查看、跟踪突发事件的处理状况、优先级设置,系统会按照优先级解决时间要求,自动触发升级流程,把突发事件发送到相关人员的邮箱,而管理人员可以随时监控突发事件的处理状况。
每月,神州数码都会对这些突发事件的按时解决率、突发事件的及时上报率进行衡量、评价,结果直接影响服务商的评价以及服务费用。
一切因规范而简约,因简约而敏捷。这就是突发事件管理的“真谛”。
|