作为全球最大的金融机构之一,这家国有银行拥有规模庞大的IT基础设施,囊括大量服务器、存储和网络设备。这些IT设备来自不同年代、不同厂商,拥有上百种产品型号,主要分布在上海和北京,形成了错综复杂的数据中心布局。
面对巨量、复杂的IT设备的管理挑战,该行携手浪潮信息,历经五年联合开发,依托InManage基础设施智能管理平台,持续提升数字化管理运维能力。此过程中,InManage在该行管辖的IT设备规模从最初的1000台大幅扩展至100,000台,覆盖国内外众多厂商的上百种不同型号的IT设备,实现不同厂商、不同年代的IT资产全生命周期数字化管理。这是当前金融行业单一数据中心带外管理的最大规模,为行业大规模数据中心的高效运维管理树立了典范。
“近五年里,我们为这家国有大行完成了10万台、上百种不同型号IT设备的统一管理,开发了四十余项定制化功能,涵盖资产全生命周期管理、AI运维、功耗调优、绿色数据中心等多方面,帮助该行实现了超大规模IT设备的智能、高效、精准、安全的运维管理”,浪潮信息金融行业部总经理吴超表示。
大行有“大”挑战 十万IT设备如何统揽
2023年底,中央金融工作会议指出,要做好包括“数字金融”在内的“五篇大文章”,作为全球最大的金融机构之一,该行积极落实,紧密围绕科技金融、数字金融的发展规划,强化科技创新,以科技赋能“数字银行”建设。
在推进数字金融过程中,该行不仅积极构建并创新数字应用场景,更加重视数字基础设施的建设和运维领域的创新。然而,数字基础设施作为该行数字化转型的压舱石,在新时代正面临着诸多新的挑战。
■ 挑战一,大规模、多品牌、多种类的IT设备如何统一纳管?
在数据中心投入运行的十余年里,这家国有大行的IT设备数量和种类不断增长。统计显示,总行目前IT设备约为10万台,包含不同年代、不同厂商的服务器、存储设备等。设备数量的大幅增长意味着管理复杂性的显著提升,更多的设备意味着更多的状态监控、故障排查、软件更新等任务,存在管理效率低下、数据不一致性加剧、维护成本上升等问题。
同时,传统的基础设施管理平台是各项功能紧耦合的系统,一般用一台管理服务器完成数据采集、存储、分析、展现等功能,但该行数据中心每天服务器运行状态数据达到近30T,集中化管理无法满足超大规模IT设备管理的分钟级甚至秒级的实时并发需求,容易出现故障上报不及时甚至管理平台宕机的问题。
为了解决这些问题,浪潮信息为其打造了一个能够兼容多种设备和品牌的统一管理平台,提供统一界面来管理所有设备,从底层屏蔽设备差异,基于基线策略实现设备无状态运维,简化操作流程,提高效率。通过研究大规模数据中心物理基础设施智能管理平台的分布式网格架构及高性能数据采集技术,设计“一中心多网格”的体系模型,InManage实现了100,000级设备的统一管理、10,000,000级指标项的秒级采集,提供批量作业的并行处理能力,实现多设备并行处理,对设备执行过程监控、结果检查,可用性达到99.99%,有效解决了管理复杂度高和故障上报不及时等问题。
通过对种类繁多的IT设备的统一管理,浪潮信息助力该行打破了数据壁垒,节省硬件成本300万以上,运维工作量降低1/3,将运维效率提升200%。
■ 挑战二,金融数据中心如何进行实时精准化管理?
传统监控方式较为粗放,IT管理部门能够了解数据中心大致的设备数量,但无法精准掌握每台设备的运行状况,比如哪台服务器CPU利用率偏低,哪台超负荷运行,哪台设备已经掉线或能耗过高等等。
鉴于此,银行亟需一套更为精准的管理解决方案,确保实时洞悉服务器的性能、健康状况、安全状态。同时,此管理方案还需具备高效地处理和分析大量数据的能力,以便及时发现和解决问题。
“我们希望为客户打造实时、精准、智能的管理运维方案“,吴超表示。
为此,浪潮信息InManage软件团队与该行IT团队携手合作,深度融合物联网(IoT)、人工智能、数字孪生、边缘计算等数字化技术,成功实现了数据中心的全方位精准管理。
在全栈、全场景动态管理方面,浪潮信息基于RFID (射频识别,Radio Frequency Identification)技术栈,适配多种场景下的资产管理需求,对设备、物资、位置、状态、人员等全方位数据中心资源进行实时动态管理,可以准确识别出设备利用率、使用情况、能耗等多个方面。
智能运维方面,浪潮信息InManage基础设施智能管理平台集成了ISBMC、InService、AIOps等故障处理能力,基于AI技术掌握了数万种服务器宕机案例,可对故障进行智能实时预警。其故障诊断定位精度业界领先,精准度达到95%,远高于业界50%的平均标准,充分保证金融行业数据中心安全,助力金融业韧性发展。
■ 挑战三,如何给金融数据中心“画地图”、“开导航”?
超大规模数据中心的设计布局,往往面临多重挑战。
首先,空间布局。IT设备数量庞大,如何准确掌握设备分布情况,机房中哪些区域是高密度使用,哪些区域则相对空闲,这是一个难题;
其次,设备安置。数据中心内设备繁多,且随时可能面临新设备的接入需求,如何快速、高效地找到合适位置来安置新设备很关键;
再次,能耗优化。IT运营者要同时考量电源、散热等因素,以最大限度地提高能源利用效率,合理进行规范布局。
超大规模数据中心如同一座庞大的“城市”, IT运营者想快速了解数据中心的空间布局、设备位置,就要做到“一图在手,纵横驰骋”。为了实现这一目标,浪潮信息InManage基础设施智能管理平台通过对数据中心机房、柜机、U位资源实时监控和智能分析,为超大规模数据中心绘制了一张动态的“3D地图”,使IT运营者能够一目了然地掌握数据中心的实时状态。
吴超进一步阐述道:“我们利用数字孪生技术,结合机柜和U位资源的实时数据,包括机型U位详情、设备运行状况及能耗情况等,全方位展示机房机柜设备的空间分布,能提高设备选柜效率和精确度,从而助力大行数据中心更有效地规划和优化空间布局、资源配置。”
3秒看到全景图 铸造AI运维利器
随着技术的不断进步,浪潮信息的InManage基础设施智能管理平台已开发了40余项定制化功能,借助AI技术,实现数据中心资产全生命周期的精细管理,推动银行加快数字化转型的步伐。浪潮信息的这一解决方案不仅帮助这家银行将IT运维效率提升了整整2倍,更在IT设备采购、到货、验收、入库、上线、淘汰全流程中,为IT运营者提供了极大的便利,只需短短3秒,即可获得数据中心设备的全面运行视图,大大提高了工作效率。
当前,浪潮信息InManage基础设施智能管理平台已在该行得到全面部署和应用,足以验证产品的成熟度和可靠性。如今,国内TOP100银行中,已有大约1/3的银行对浪潮信息的InManage基础设施智能管理平台进行了规模化部署。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)