|
张善政:台湾地区的灾备管理经验(2)http://www.sina.com.cn 2008年07月06日 16:12 新浪财经
2008年7月6日,“中国灾备管理战略国际研讨会”在清华大学举行。本次会议的主题是《灾备管理未来》。新浪财经独家网络支持本次会议。图为台湾宏基公司电子化服务事业群副总经理张善政发表的主题演讲。(来源:新浪财经 全权摄) 前面我给各位看到的照片,几年前台湾有一个娜利台风,这个银行很惨,测试系统没地方摆,摆在地下室,结果台风来了淹水了,地下室淹掉了以后,IT的服务器全部泡汤,水抽干了以后,IT的设备一套几百万几千万全部埋在泥巴里面,这个经验教训很严重,刚才讲的都是他花钱的,也有不花钱的地方是什么?管理。200个人如果说台北的机房真的出事情,到我们灾备机房,我也请教ICO,说这200个人怎么会到呢?他说我平时会不定时的测试,说今天晚上10点钟,这200个人打电话,看他们在不在,打电话第一个问题问你说你现在在哪儿?还在台北,没问题,如果说半个钟头以后集合准备下灾备机房,你能不能到?你说我要度假怎么办?度假当然有代理人,他就打给你的代理人,这200个名单每年有事没事就打电话,你手机随时得开着,连洗澡都得耳朵张大点,每个人打电话都要找得到,问你说在哪里?不能说到南部了,只能在台北。有没有例外?有一个员工有一次碰到例外,有一个员工盲肠炎在医院做手术,实在不能出来。所以他们做事非常严谨,不花钱的就是管理制度面建立很多这种方式。 我再给各位报告第二个案例,台湾的行政院,台湾的税收有所谓中央税和地方税,地方政府常常叫穷,说钱都给中央收走了,所以地方要做什么事情常常都没钱,所以跑回来跟中央的行政院要钱,台湾行政院说提防再不修,今年台风来再要淹水了,所以行政院每年就会拨很多的预算给地方去做一些他们觉得该做的事情,但是这个钱拨到地方去了以后就石沉大海,不知道那个钱在干吗呢?打电话说你的钱花了没有?说还没花,招标不顺利,厂商还没有标到,中央把钱拨给地方以后,钱怎么用都管不了,效果也不知道好不好,所以台湾行政院这边就很伤脑筋,说我怎么样这个钱拨到那个地方以后还能管住这个钱,但是又不能说我派一个人到你那边看你用钱,这也不行,后来想了一个办法,说你们这些钱要用,我现在,行政院开发一个IT系统给你们,帮你们买服务器,帮你们把这个系统装好,以后你们用这个钱的时候,你们全都要到这个系统上登陆,这样子可以吧!服务器也不要你花钱,IT系统开发也不要你花钱,够意思吧!所以就做这个事情,做这个事情怎么能够管到地方呢?他们就做了一个地方补助款的财会系统,做好以后,他说财会系统我给你们地方做以后,我同时要做灾备,备到我中央来,备过来以后,你们花钱的资料都要上系统了嘛,我在中央,因为两边系统要同步,我就都看到了。所以台湾大概有23个县市,挑了比较大的12个县市做这个事情,备到我们这个地方来。怎么做呢?有12个网络,透过信息网络传到上面,上面是宏基的灾备中心,灾备中心里面的服务器随时跟下面县市政府的服务器资料保持同步,所以地方政府在用这些钱的时候,开了一笔,比如这笔钱1千万准备要做某个专案,这个资料就会记载在下面这个系统里面,下面和上面的系统随时保持同步,行政院主机处就很聪明,他又开发了一个系统,叫做主管决策资源系统,这个系统让中央的官员随时要查资料,随时上这个系统马上就可以查到地方用那些钱怎么个用法,非常清楚,所以做起来以后,行政院管不了地方政府用钱的这个问题就解决了,地方也高兴,中央也高兴,当然是要花钱的。 真的出现灾备的时候,右下角这个县市政府出了事情的时候,当然我们在灾备中心,右上角这边灾备系统会启动,这个时候所有使用的这些人就透过网际网络直接连到我们灾备中心直接可以用到这些资料,所以这个道理非常简单,各位看到中间就是一些主网络和灾备网络。所以这个系统做完以后,有什么好处呢?行政院随时都知道地方政府用钱的状况,地方政府原来对IT系统管理没什么观念,现在也知道要做灾备了,所有用钱不敢乱花,以前常常是,台湾有的时候民意代表来找你县长的时候,不好意思说不好,说我那个地方水沟都乱了,破了,有的时候也碍于人际关系,不得以拨钱,这种情况因为中央都可以看得到,现在如果再有地方政府找你要钱修水沟,你就可以说对不起了,我背后上面有人看着了,这个钱不是给你做水沟的,我想给你也不行。 再下面我就零星举些案例,左边这个图是2000年美国有一个公司做的调查,说IT系统会中断的原因是什么呢?洋洋洒洒举了一大堆因素,我分类,有两类,蓝色框起来的包括信息网络、软体、硬体,加起来大概24.8%,什么意思?这三个项目是IT的项目。另外我又框了红色的框,电力、火灾、淹水、地震跟飓风加起来,54.4%,与数据中心相关的因素,这个数据举出来要跟各位报告什么事情呢?一个错觉,我们在台湾碰到很多,不管是政府机关也好,还是民间企业也好,因为系统很重要,所以我要准备第二套服务器,我花钱建起来以后,我就不怕第一套原来的服务器故障了,从我们宏基做生意的角度来讲,我当然希望说,有钱可以花到第二套服务器上面,我们希望把灾备也做了,你愿意为了25%的原因,25%的风险去花第二套服务器的上面,可是他说我摆在灾备中心还要多做什么事情呢?我们说多做VCP,把差距补起来。 跟各位报告一下,台湾现在我们的客户里面有两种,有些人就说好,我要做灾备,第一个问题问自己是说,我做灾备到底是左边的情况,左边的情况就是我自己的主中心,这个数据中心如果全部都毁了,如果说失火了、淹水了,我才做灾备到右边你宏基的灾备中心,这是一种做法。第二种做法是右上角的做法,我才不管你了,主机房里面有20个IT系统,只要有一个系统出事情,我就要切到灾备区,两种都有。如果是左边这种做法,我们就告诉他说,你这个时候,如果主中心毁了,你灾备,家里面有20个系统,我请问你,这20个全做还是挑着做,这又牵扯到VCP里面要做风险的分析,不过跟在座报告,早上好几位嘉宾也提到,当你这个人一旦变成官员,有很多事情都是政策决定,不是技术决定。我们的客户很多都是政府客户,我们碰到大部分政府客户都说,我告诉你,家里面每个系统都很重要,都要做灾备,那就很难做了,因为预算又不够,这就很难了,怎么做呢?比如你家里面有五个系统,但是预算不够,你委屈一下,帮你灾备的时候,那五个系统集中到三个系统就好,省点钱,他们通常都说,只要系统全都做灾备了,我就没事了,你挤到三个系统上我也可以接受,但是通常一旦出现灾备的时候,他才发现怎么三个系统比五个系统跑起来那么多,甚至有时候负荷很重,根本动不了,他觉得不是灾备了嘛,为什么动不了呢?所以当初预算不够就会有这个问题。另外如果说不是做这种假设,你说我家里面的这个机器如果故障了,我要做灾备,我随时都可以做灾备,没错,也可以,但是比较复杂,中间这个图说,你现在一个系统出问题了,你就把它变到右边来以后,没想到这个系统跟其他的系统牵扯很多,现在服务器多了,服务器便宜了,系统开发的时候,每次你开发一个系统,就说你原来的老服务器,我新的系统放上去拖不动,所以现在我们都换新的。我们在台湾,大陆这边可能差不多,现在开发系统的时候,这个开发的水平参差不齐。 另外有一些经验教训,我们的客户有一个是县政府,我们姑且称为T,我们帮他服务的三年里面,一共出现四次实际的灾变,每次大概都帮他顺利做起来了,这个T的县政府还不错,至少做了一个BCP,所重要的程度都分级,比较重要的我随时要复制出去,不重要的就用磁带抄一抄,用专车送到我们的灾备机房,但是我跟他说,所有系统全部都要切也有这个拖不动的问题,我们说能不能别这么贪心,既然重要性都分好了,不重要的就不要做灾备。 第二个案例是某个部委,我们称为A,服务了四五年出了5次事情,他就说每个都很重要,帮我全部都做掉,做起来非常辛苦,而且他说,我们说你有没有先后秩序,都做灾备也没有关系,但是有的系统一个小时要恢复,有的系统可能半天才恢复,你也给我一个清单,说先后秩序好不好,你要先回复哪个,他说两个钟头,前部都两个钟头,20个小时,两个钟头里面都在上面,我们就帮他做,做到最后当然做不出来,有的时候就差那么一个系统,两个钟头19个系统都恢复了,那个系统切不起来,我们就做不起来,不愿意面对重要性的风险分析,到最后还是会碰到这个问题。 我再报告一两个案子,是我们经验的部分,在VCP的循环里面,这个事情做的时候还在不断的改进,你在右下角实际上线以后要不断的改善。举两个例子,几年前中国有非典,台湾叫SARS,马上我们就有客户回来反映,说我现在在你们宏基的灾备中心,这是一个欧洲的银行,在我们那边做灾备,这个银行在我们台湾的IT部门大概差不多有60个人,SARS台湾是这样管的,假使你,譬如说今天一个人一个房间,我们这个房间的人全部都不准出门,他们就很担心,这60个人同一个办公室,如果有一个人感染非典了,那60个人全部都在家里要隔阂,那都不能上班怎么办?所以当流行病出现的时候,就两边上班,一半的人在银行里面上班,另一半的人就到我们的灾备中心来上班,所以非典几年前,流行病出现的时候,第一个动作就跑来跟我们说,我要多加一个灾备的作业空间,要30个人,我什么时候来用呢?我是流行病出现的时候用,灾备中心不是讲什么地震和台风那些事情,是为了传染病用的,所以我告诉你,有这么多消毒药品要买起来,所以他非常清楚30个房间药品该有的都有。 另外还有一个同样的银行,两年前,2006年12月底,台湾国际的这些网络,大概有几个出口,左下角是连到香港、澳门、东南亚、新加坡那边,右上角那个地方叫投诚,透过太平洋连到美国、日本那边了,2006年12月在台湾左下角那个外海有6.7级地震,把左下角那边的海缆都震断了,那一阵子中国的国内大概网民只要是到东南亚去的60%都上不了网,那台湾当然受创很严重,这个事情以后,像台湾也有这个股市交易,很多外商银行总部在新加坡、香港,他们其实不是在台湾,买台湾的股票,为什么?他们都是在香港、新加坡透过网络买台湾的股票,网络一断,台湾的股市也都交易不了。我刚才讲的欧洲银行,碰到地震以后第二天,他马上说香港跟新加坡连不上线,我们多定一条国际海缆,连到韩国,这个动作非常快。另外地震以后,宏基做灾备做了好几年,还没做完,这个系统之间的牵扯太复杂,宏基的灾备是我们帮我们宏基自己的IT部门做的,这个地震让他做出很大的决定,让我们数据中心少了一笔生意,但是我们还是有VCP的生意,他说这个地震可以把台湾60%对外的通讯全部都砍断了,也太脆弱了,台湾现在宏基的订单系统一年有150亿的订单进来,我刚才给各位报告了,那台湾如果对外通讯断了,订单怎么办?所以我们CEO在地震以后做出一个清楚的决定,是说我们的订单系统灾备要做到美国去,所以在美国就挑了一个机房,我们原来做了一半的计划统统重来,我给各位报告的是不管是欧洲银行还是宏基自己,碰到大型的灾变的时候,随时要反应到,这个灾变回去看我当初的VCP计划是不是有问题? 最后,灾备怎么做得好,三个因素:左下角就是设施要好,另外一个欧洲的银行在我们的设施里面做备源,欧洲银行可能各位猜得到这是哪个国家的银行,你每次看电影,有钱人存钱不想让人家知道都存到那儿去,他就在我们这边做灾备,电话客户人员都有席位,每个房间都隔开,他说我这个房间跟隔壁的房间中间,怕人家偷听讲电话,他说我这个房间要有隔电池波的设计,各位你这个手机打不通的,他说我在台湾以外的地方,我们的贵宾理财的席位都是这样设计的。右下角就是指挥体系,尤其是台湾的政府单位,IT系统的开发都不是自己开发,都是外包的,像C银行做演练的时候,外包的IT系统开发商全部都要到灾备系统旁边等着,万一这个系统上线有问题,你开发的人在现场马上帮我解决,这个银行的态度非常正确,我们碰到非常多的情况,原来在主系统里面跑得好好的,在灾备系统里面就不行了,这个时候工作人员就马上要来解决。但是我们换了一种客户,到政府机关去,他合约当中写完已经交付了,你说明天要做灾备演练,但是他们都以一大堆理由拒绝。最后一个是管理制度,你这个运营期间,随时要看到新的问题,随时要反映到你的计划里面,刚才讲的台湾海缆的中断也好,我们也看到非常多的企业机关会做VCP的修正,这点非常好。时间的关系,就说这么多。
【 新浪财经吧 】
不支持Flash
|