打赢金融业务永续攻坚战,借助 GDPS 让业务永续更上一层楼

打赢金融业务永续攻坚战,借助 GDPS 让业务永续更上一层楼
2020年04月02日 09:12 第一财经

2020的春天注定会被载入史册。突如其来的疫情像一场大雪覆盖了广袤的中华大地,两个月来八方抗疫、九州闭户,给许多业务连续性准备不足的行业打了个措手不及。

疫情所带来的的短期困扰终将逝去,企业在这期间更需要做的是沉着应对此过程中所展现的问题,并进一步思考中长期的转型和发展计划。在疫情这面镜子的反射之下,各行业都不得不认清一个事实:在任何的特殊时期,只有确保自身的核心系统架构的稳定,才能更好地保障业务的稳定性和连续性,从而提供始终如一的业务服务。

这无疑给金融行业敲响了一个警钟:作为关系国计民生和影响国家经济发展的重要组成部分,金融行业必须要打好防疫期间的“业务永续攻坚战”。在这场战役的冲击中,如何保持嗅觉敏锐并坚挺站稳脚跟,维持住企业活力和服务质量,乃是本文所要讨论的重点话题。

一. 业务中断成本巨大,企业不堪其扰

其实对于金融业来说,“维持业务永续”早已不是一个新话题,只是在疫情的助推之下,这个课题再次横亘在企业发展的路上,变得尤为重要。

企业经常面临停机

根据近日一项来自 Forrester Consulting 的调研报告显示,在受访者当中至少每季度经历一次计划内或计划外停机,近一半的受访者每季度经历计划内停机,而每半个月经历一次计划外停机。

计划内和计划外停机带来诸多挑战

IT 主管在面临管理系统停机方面遇到诸多挑战,因为无论是计划内还是计划外,哪怕一秒钟的停机所引发的业务中断,都将会给企业的生产力和收入带来巨大的损失。

对于计划内停机,将近 40%的 IT 领导者将应用程序和系统重启时间视为首要挑战,而 37%的 IT 领导者将服务恢复时间视为挑战。公司还努力在系统关闭时尽可能地提高效率:38%的人说,他们面临的挑战是找到足够长的维护窗口以适应必要的更改。系统停机的时间越长,产生的成本就越高,这使得应对计划内的停机的挑战变得至关重要。

对于计划外停机,IT 领导者则试图恢复原状,同时尽可能减少损失。49%的被调查企业将数据恢复列为首要的技术挑战,而53%的企业将收入损失列为首要的业务挑战。

二. IBM Z+ GDPS——提高业务连续性的利器

IBM Z 平台凭借总体平台的固有优势,提供行业领先的可用性。包括“并行耦合系统集群”(Parallel Sysplex) 的数据共享,和数据复制在内的诸多技术是实现这种卓越可用性的基础。通过部署 GDPS 等自动化与统筹管理解决方案,这种优势得到了进一步增强。

GDPS 解决方案

GDPS系列解决方案,旨在满足各种 IBM Z 的实施模式或部署拓扑的特定需求。GDPS 解决方案充分考虑了现有数据复制技术的特性,包括副本的数量,以及运行环境所规定的与可用性相关的其他需求。GDPS 解决方案还能够捕获并使用多个时间点的数据副本,确保客户的记录系统远离因网络攻击或内部恶意破坏所导致的逻辑数据损坏风险。根据所使用的底层复制技术,解决方案可分为以下几类:

1. GDPS Metro 解决方案

这些解决方案是为了满足使用所谓“同城镜像”(Metro Mirror) 的同步复制技术的客户需求。GDPS Metro 解决方案与“并行耦合系统集群(Parallel Sysplex)”技术紧密集成,为 z/OS* 环境提供接近永续的可用性。GDPS Metro 解决方案不仅提供数据复制管理功能,还为“并行耦合系统集群”提供系统管理和集群管理功能以及老道的工作流程,通过一系列可重复的动作,帮助应对可能发生的各种情况。该解决方案能够实现零数据丢失目标 (RPO=0)以及几分钟到一小时以内的恢复时间目标 (RTO),具体取决于部署拓扑和工作负载。

GDPS 还提供并协调 HyperSwap 功能,如果主副本发生故障,该功能可以透明地将主机 I/O 从主副本切换到从副本。整个切换过程只需几秒钟时间,通常不会影响并行耦合系统集群中正在运行的工作负载。这个功能也可用于 z/VM 系统和之上的虚机系统,比如 Linux on IBM Z;还可通过 GDPS z/OS 代理功能,用于 GDPS 并行耦合系统集群之外的 z/OS系统。

2. GDPS Global 解决方案

顾名思义,GDPS Global 解决方案使用磁盘全局镜像 (Global Mirror) 或 z/OS 全局镜像,两者都是异步复制技术,可在不受限制的距离上复制数据。这些解决方案为稳定运行的环境提供复制管理和监控功能;并通过强大的工作流程,在生产环境所在地区发生灾难时,对灾难恢复 (DR) 地区的恢复操作进行统筹协调。如果有明确要求,GDPS 还能够让生产系统在这两个地区之间进行轮换运营。如果使用异步复制,在发生意外情况时总是会发生某种程度的数据丢失,但这通常能够控制在以秒为单位的范围内。RTO 一般为 30-60分钟,具体取决于在灾难恢复站点重新启动系统和工作负载所花的时间。

3. GDPS Metro Global 解决方案

这些三站点和四站点解决方案结合了 Metro 和 Global 解决方案的各种要素,既能够在 Metro 解决方案的应用范围内确保接近永续的可用性,又能提供地区间灾难恢复能力。通过结合使用这些三站点或四站点解决方案和功能,客户可以做到两全其美:在生产环境所在地区,即使一个或多个部件发生故障,也能保证本地的业务连续性;而 GDPS Global 功能可以提供地区外保护。通过使用对称的四站点配置,可以灵活地在地区间切换,在任何地区运行生产环境都享有同等的高水平业务连续性配置。某些行业,特别是像金融行业那样特别重视且有着最严格可用性指标的行业,一直受到严格监管,他们必须证明自身能够在正常运营地点和灾难恢复地点长时间正常运转。

4. GDPS Continuous Availability 解决方案

GDPS Continuous Availability 解决方案使用基于软件的数据复制功能,该功能由 IBM InfoSphere* Data Replication for z/OS 提供,适用于 Db2*、IMS* 和 VSAM 数据类型。它确保客户大型机环境中最关键的工作负载能够在非常短的时间内恢复。具体而言,该解决方案在两个任意距离的不同地区中配置基于软件的复制功能(先建立网络连接),从而确保在两个地区中永远有一个耦合系统集群 (sysplex) 能够在线提供服务。这样,就不需要在这两个地区之间部署跨地区集群解决方案了。GDPS 对构成总体解决方案的各个组件进行监控和统筹管理,确保当工作负载遇到故障时,能够以最低的延迟将工作负载切换到备用地区。

GDPS 配置示意图

自动化统筹与管理是关键

通过自动化技术,在发生任何情况时都不需要直接人工干预;而通过统筹管理,可以有效协调各种恢复操作—这两者都是实现最高水平可用性的关键所在。GDPS 解决方案旨在确保自动化技术尽可能接近要自动化的对象,以便最大程度提高效率。GDPS 还提供强大的工作流程引擎和简单的脚本语言,以可重复和预先确定的方式,统筹管理计划内或计划外事件中通常所需执行的操作。

GDPS Metro Logical Corruption Protection Manager(LCP)

确保客户数据远离逻辑数据损坏的风险

GDPS 解决方案能够捕获并使用多个时间点的数据副本,确保客户的记录系统远离逻辑数据损坏的风险。

越来越多的客户面临着当数据遭遇逻辑损坏时,需要从备份中恢复生产数据的场景。因而他们提出 GDPS 能否在这样的场景里为他们提供持续不断地数据保护,帮助他们即使在遭受内部错误或者网络攻击的时候也能快速地恢复数据和保障服务持续。Logical Corruption Protection Manager 正是 GDPS 为了满足这样的需求应运而生的。

如下图中所示,在我们常见的 GDPS/Metro 方案架构中,生产数据随时随地都通过同步数据复制技术镜像到备份磁盘上。因此一旦生产数据遭受逻辑损坏,被破坏的数据也会随着同步复制技术而写入到备份磁盘中。此时,未遭受破坏的数据就仅仅剩下主、备磁盘中的数据快照(FlashCopy)了。然而这两份数据是多久之前的生产数据快照呢?我们当然希望是在数据被损坏之前,并且距离现在越近越好。

在LCP方案架构下,GDPS 会根据策略定时为生产环境产生快照。例如下图中 GDPS Metro LCP Manager 每 15分钟为生产数据产生一份快照。假定生产数据在 1:50am 时候遭到损坏,但直到 2:20am 才被发现。此时错误的数据已经随着数据镜像复制到了备份磁盘中。甚至在 2:15am 和 2:00am 所产生的数据快照里也包含了错误数据。现在只需通过脚本,LCP Manager 就可以把 1:45am 的生产数据快照恢复到生产环境里,提供用户进行数据修复和服务恢复。

除了图中所展示例子,LCP 和 GDPS 还可以形成多种组合。例如可以在灾难备份的方案中加入 LCP Manager 的功能,形成使用指定时间点的生产数据进行灾备恢复,如下图中 RS1和 RS2分别是生产环境主备磁盘中的数据。而 RC1则是灾备环境里的数据,LCP 可以选择指定时间点的数据快照来进行灾备恢复。

LCP 在建立生产数据快照的时候,除了使用 FlashCopy(FC)技术之外,也能够采用 DS8000系列磁盘最新提供的 SafeGuarded Copy(SGC)技术。SafeGuarded Copy 技术可以让用户建立多达 500份生产数据快照,而对生产环境的性能却微乎其微。LCP Manager 从而能管理并从这这 500份快照中选取最合适的数据副本进行恢复。

三. 将停机损失降到最低: 业界首创的即时恢复功能

根据来自 Forrester 的调研显示,计划外停机平均每分钟要比计划内停机多花费 35%。公司通常不会为计划外的停机做好充分的准备。IT 领导者指出,停机最昂贵的方面是收入损失(53%),生产力损失(47%)和对公司声誉的负面影响(41%)。

可见计划内停机导致的业务中断,以及计划外停机的恢复过程对组织造成的损失是巨大的。在如今快节奏的世界中,很多行业尤其是金融业的交易都是在线进行,因此即使您本人能够容忍停机时间,您的客户也不能忍。在业务进行一半由于停机而发生中断,您总不能跟客户说“不好意思稍后再回来,因为我们系统正在发生故障无法正常操作”。

正所谓“工欲善其事,必先利其器”,为了解决停机所带来的诸多挑战,决策者必须首先在缩减停机时间、提高恢复速度、维持业务永续的技术上进行投资。

在 2019年 9月发布的全新 z15可以实现跨混合多云环境管理客户数据。借助z15上的新功能数据隐私护照,客户不仅能够通过基于策略让不同角色的数据访问者只能获取与其权限匹配的数据视图,同时还能在多云环境下撤回对数据的访问权。全新的 z15更具备“7个9”的可靠性,这就意味着企业的大型机每年平均不会经历超过 3秒的计划外停机。另外,z15具有一系列备用处理器,这些备用处理器可以通过其 System Recovery Boost 功能加以利用,通过业界首创的“即时恢复”功能,有助于在很短的时间内使系统恢复在线状态,从而大大降低计划内和计划外停机所产生的经济损失和负面影响,让灾难“转瞬即逝”。

即便是拥有当今可用性水平最高的系统基础架构,GDPS 解决方案仍有其用武之地——有助于提高总体环境的业务连续性,同时结合 IBM 业界首创的及时恢复功能,可支持数以百计的大型机客户实现可用性和灾难恢复目标,尽可能地减少在疫情期间的损失,使企业的业务永续水平更上一层楼。

灾难恢复 快照 可用性

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 04-09 沪硅产业 688126 --
  • 04-09 锐新科技 300828 --
  • 04-08 朝阳科技 002981 --
  • 04-08 安宁股份 002978 27.47
  • 04-02 越剑智能 603095 26.16
  • 股市直播

    • 图文直播间
    • 视频直播间