作者 | 张 俊
投稿 | lanxueziben(微信)
全球合伙人招募 | lanxueziben(微信)

跨上摩托,系好头盔,拧紧油门。发动机如巨兽一般发出轰鸣,微凉的风从耳边呼啸而过,卷走世界里的所有声音,让精神为之一振。爱上骑行的六年间,我驶过夜间西城的万家灯火,也看过百里画廊的漫山红叶,足迹遍布北京街巷与山岭,一路上总能发现不一样的新风景。
而我在华为的“云征途”亦如这飞驰人生一样精彩:8年时光,辗转华为云研发、解决方案销售、生态岗位,我见证并参与了云的高速发展。以身入“云”,当挑战扑面而来时,我也总能发挥骨子里的拼搏精神飞驰迎接。

“骑士”和女儿
01
闯荡新赛道
在上下求索中突围
“老张,想不想去一线闯闯?”
2017年,华为云准备开辟汽车行业车联网新赛道。某个坐在工位前的平凡日子,我突然接到主管的电话,“一线急需一位懂PaaS(平台即服务)技术的一线SA(解决方案架构师)补位,你是最佳人选”。在研发领域深耕了十多年,一线于我而言非常新鲜和刺激。在这个完全陌生的新赛道上,我能闯出怎样一番天地?握着手机,心里装满期待,我立马答应了。
来到一线之后,云解决方案部的工作压力令我措手不及。迎面而来的第一个项目是知名车企的混合云项目,客户机房条件和空间不足,传统的软硬件成本高昂,运维困难,迫切希望找到一家公有云厂商来提升公司的IT水平。彼时,华为云作为刚刚进入公有云的新玩家,也在寻求一个证明自己的机会,解决方案部要求我独当一面,直面客户。强大的友商、紧迫的项目进度、行业知识的不足……焦虑和不安充斥着我的大脑。然而没有太多时间留给我慢慢转身了,开局就是大考,先“上车”再说!
求知欲是驱动引擎的机油,凭借一腔求知的热情,我对汽车行业知识和车联网相关业务一通恶补,让自己能听懂客户的行话,找到共鸣。作为全球知名的商用车制造商,客户希望快速改变现状的决心非常坚定,在与客户的交流中,我对汽车行业和车联网系统的了解也更加深刻。
前期做出的努力体现在了投标文件中:我们给出了最贴合客户实际情况的详细设计方案,针对客户安全能力缺乏的情况,孵化出安全专家云服务,承接起客户系统安全守护的责任,让客户安心使用华为云。最终,我们顺利得到客户的认可,成功中标。第一块“硬骨头”可算是被我给啃下了。
接踵而至的是交付挑战,首批上线的车联网系统是车企直接对客的系统,重要性不言而喻,而当时的华为云似初生的婴儿,茁壮成长却仍有众多不足。白天,我和客户一起讨论落地解决方案,晚上和研发团队一起对需求,第二天再进行方案验证……就这样披星戴月地奋斗了小半年,在攻克了无数难题后,我们终于迎来了车联网上线的那一天。
我们按照预定的时序精准进行着一项项任务,这时,一个意想不到的事情发生了!大量的车辆数据从客户机房的CDH(客户基础数据管理平台)导入到华为云MRS(媒体资源服务器)时,速率竟然远远低于预期。这是怎么回事?
我按捺住抓狂的情绪,当即登录刚刚运行导入任务的设备,一个个排查指标。鼠标从数据上依次划过,我的心像栓了一块大石头不住下坠。窗外的夜色越来越沉,终于,我发现客户机房到华为云网络的速度远低于专线带宽,立马把这个情况报给了华为云运维的团队。运维的小伙伴很给力,几分钟后就定位了问题,原来是华为云内部为避免某个租户消耗所有资源,会给单个租户进行限流,我们临时申请打开网络限制后,专线带宽一下子就跑满了。经过一夜紧锣密鼓的攻关后,我看着显示成功的界面,车联网系统成功上线了。我顶着黑眼圈,心里的大石头落地了。上线后的车联网系统不仅运行平稳,还降低了客户开发和运营成本,华为云也因此提升了产品竞争力和知名度。
02
躬身入局
挖出客户需求
2018年,华为独家100%中标中国T集团公有云项目,这是华为与该企业战略合作的山头项目,也将为全国央企市场的公有云拓展树立标杆。我因拥有十多年的云计算研发经验,又曾深入一线销售解决方案现场,技术实力和一线经历都齐全,被委任为T集团华为云总架构师。
在一线时,我发现比起“卖什么”,客户更关心你能帮他解决什么问题,找准客户痛点才是真正的驱动力。在讲求效率的云时代,时间就是金钱,时间就是机遇。为了更快地找准客户痛点,我上岗后的第一件事,就是搞清楚采购框架的依据。一番调研之后,我发现该框架预测的数据是客户3年后新业务云资源的消耗量,但是现在客户的新业务才刚刚起步啊!想到这里,我感到局势不容乐观。
为了融入客户,我入驻客户现场,和客户一起并肩办公,开始了艰难的拓荒之旅。这天,客户遇到了一个O数据库在华为云上的安装问题,客户的研发工程师经过一周的攻关未果,甚至连O原厂的专家也找不出原因。面对客户的紧急求助,我根据经验初步分析是某个IP地址不通的缘故。大致浏览了O日志和华为云的日志后,我简单重现了该问题,进一步证实了自己的猜想是对的。为什么会这样?原来,客户在配置网络时,错把网络规则的名字当作了网络规则,因此全放通的配置并没有生效。我的专业性让客户连连称赞:“即使不是华为的问题,只要华为有能力都会伸出援手,真是太感谢你们了!”渐渐地,我和客户有了更多共同话题,这份情谊也延伸到了生活中,我们还成为了一同骑行的好朋友。
朝夕相处间,我得知客户的办公系统并不稳定。而办公系统对他们来说是除了“动态环境监控系统”外最重要的系统,该系统是承载所有流程的平台,一旦出现问题,所有人第一时间就会感知到,因此运维部门背负着很大的压力。研究一番后,我制订了“冷备-热备-双活”三步走的优化计划,此方案能够充分利用华为云的容灾能力,兼顾经济与效率地提升客户现网系统稳定性,并为后续发展为“多地多活”打下了良好的基础。后续我抓住这一痛点,成功说服了客户,一切顺水推舟、水到渠成。
躬身入客户之“局”,我犹如一个老中医一般,贴身地对客户望闻问切,抓住痛点,整个上云计划顺利推行。短短3个月期间,客户的用云量跨越式增长,华为云真正融合到了客户的业务中。不仅如此,我还被聘请在华为大学高研班授课。为了进一步推广经验,我在领导的支持下牵头成立了华为云第一支持续运营团队,开创了华为云不断深化客户合作的新模式。T集团的项目经历让我深刻认识到,坦诚与务实是链条间的润滑剂,不需要太多的技巧,但能保障项目顺畅的推进。
03
主机上云
做第一个吃螃蟹的人
“5.16事件”后,严峻的外部环境让国内金融行业龙头G行,加紧了从I公司技术栈切换到自主可控技术栈的步伐。基于华为云全栈、软硬件协同优势,G行和华为云成立了高级专家联合工作组,对G行平台核心领域开展联合技术攻关,2023年务必保障原本使用I公司大型机的个人结算系统在华为云Stack上投产并稳定运行。该工作组一共包含9个子工作组,覆盖计算、存储、网络、华为云Stack、数据库、工具链等全方位的华为产品和专业服务,而我承接的正是最后一个“专业服务”课题。
G行对于个人结算系统的系统可用性要求是5个9(99.999%),于是,我们根据系统可用性基本原理,确定了一方面通过高可用架构提升系统自身的可靠性,另一方面快速应急响应机制的解决方案,来减少客户故障的恢复时间,以此进一步提升整个系统的SLA(服务等级协议)水平。坦诚地讲,当时以分布式为基础的年轻的华为云Stack,在稳定性和运行能力方面,还难以赶超成熟的I公司大型机。所有人都寄希望于通过专业服务来弥补完善这一缺点并与客户的现网系统形成良好对接,但到底该怎么完善,没有人清楚,大家都在摸着石头过河。
G行现有运维体系已经非常完善,各种监控、报警、日志的丰富度在行业内算是首屈一指。但是在某些情况下,尤其面对以前没有遇到的故障场景或者干扰因素过多的时候,依然很难做到快速恢复业务。为了直击该问题,我带领团队对现网情况及个人结算系统进行了海量调研,根据产品的现有能力进行差距分析,同时借鉴了G行的运维经验加以辅助,经过和客户反复讨论,最终确定了基于“确定性运维”理念,创新地构建了以混沌工程为驱动的自动化运维体系来解决这个难题。
我们将该体系总共分为三大组件:高可用架构设计,用于提升系统自身的鲁棒性,确保在系统出问题的时候,能够最大限度、最快速地通过“逃生通道”减少对业务的影响;全链路监控故障定界,系统上线后,不可避免会出现各种故障,对于银行而言最重要的是快速恢复,因此我们将5个“9”转化为“1-5-10(1分钟发现、5分钟处置、10分钟恢复)”可度量的运维目标,也让接下来的任务有了更强的方向性;混沌工程,它区别于传统的测试,是指在生产系统或者准生产系统中注入可控故障来反向检验系统可靠性的一系列技术和工程实践。
“1-5-10”的运维标准在业界一直是个难题,在整个体系构建中,我们提出了一个关键点,就是“1-5-10”中的“5”的定义。以前,它是指“5分钟内实现问题定位”,但在真实的生产环境下,面对潮水涌来般的告警和日志时,在如此短的时间内定位故障是非常困难的,因此我提出故障处理应该分两步走,第一步是故障定界,第二步是故障定位。在应急场景中,5分钟内定界到后面10分钟可以快速处理的故障范围即可,而不需要做精确的根因定位。应急处理恢复业务后,再慢慢进行根因定位,这样就大大简化了问题。
虽然问题简化了,但对于庞大而复杂的系统来说,“5分钟内准确进行故障定界”其实也是极其困难的。使用AI进行快速的故障定界似乎是一个比较好的选择,但是由于银行每年出现影响业务的故障次数太少,训练AI模型所需的故障数据难以获取。因此,我们引入了混沌工程。一方面,混沌工程可以对系统进行上线投产前的最终验证,发现潜在的问题;另外一方面,它解决了行内缺乏AI故障定界工具训练所需要的大量的故障数据,同时还可以检验“1-5-10”的运行效果。这样三个组成部分运行链条完整,相互配合,形成完善的专业服务方案,为客户业务系统的可靠稳定运行保驾护航。
项目组合影
专业服务的方案成型后,我又化身“推销员”,努力说服了客户领导和每个小组接受我们的方案,认同我们的验收标准和度量方法。在团队紧密协作下,2023年6月4日,G行个人结算系统实现单轨运行,至今为止没有出现大的故障。期间几次计划性停机和小故障触发了“1-5-10”机制,也都顺利保障了系统的可靠稳定运行,不仅如此,有几次在灾备系统上实施的混沌工程还发现了一些以前没有关注到的问题,受到了客户的高度好评。有了这几次的保障成功经验,我们处理起问题来也更加得心应手了,G行甚至提出将该体系扩展到更多的关键业务系统上来。
基于G行的实践经验,我带领团队孵化出主机现代化解决方案和AI故障定界工具,帮其他金融客户同样实现了“1-5-10”快速定界恢复,极大地提升了华为云的口碑和竞争力。靠着G行主机上云专业服务解决方案交付过程中大家对我的认可,我也收获了华为生涯的第一枚“金牌个人”奖,这不仅是对我的肯定,更是我们团队共同的荣誉。

荣获奖牌
04
写在最后
华为云的三段旅程,凝聚了我求知、务实和创新的经历,为我铸就了坚实的铠甲。前路漫漫亦灿灿,我跨上摩托,引擎的轰鸣中,爆发出蓬勃的生命力和无限的潜能,我将继续披坚执锐驶向云端!

VIP课程推荐
APP专享直播
热门推荐
收起
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)