近日,嘉银科技推出自研全链路可观测平台——“离朱”,全面融合Tracing调用链、监控指标、日志、事件等多种观测数据,实现数据的有效整合,打造代码级别的实时观测平台。
离朱是上古传说中的神鸟,具有“视于百步之外,见秋毫之末”的超能力。嘉银科技自研“离朱”同样拥有强大的观测能力,实时观测业务运行状态,快速定位服务故障和性能瓶颈,在大规模、复杂的应用体系架构下更好地支撑了业务的稳定性,为业务运行保驾护航。
随着云原生架构的普及和微服务、服务网格等技术的广泛应用,系统架构的复杂性显著增加,让传统运维模式下的服务调试和故障排错变得困难,主要表现在:
动态性与弹性:云原生应用通常具有动态扩缩容的特性,而服务实例的频繁变动要求监控工具具有实时性和灵活性,以适应快速变化的环境。
分布式特性:微服务架构中,服务相互依赖,调用链复杂。传统的监控工具往往无法全面、准确地观察整个应用系统的行为和状态,导致问题排查困难。
故障定位困难:在微服务架构中,任何一个服务的失败都可能导致连锁反应。因此,需要一个强大的可观测性解决方案,能够追踪请求流、捕获日志和监控指标,以便在故障发生时迅速定位问题根源。
凭借丰富的运维实践经验,嘉银科技不断打磨技术、迭代产品,打造“离朱”全链路可观测平台,实现系统、硬件、网络和应用等所有日志和数据的统一采集,并经过标准化解析和有效整合后存储到相关数据库。同时,可视化、可观测大屏对复杂的数据进行实时统计和分析,并以图表形式展示,便于运维人员快速了解各资源对象的运行状态,做出快速判断或预测。
嘉银科技“离朱”可观测平台涵盖指标中心、运维可视化大屏,变更事件墙,链路Tracing观测等功能模块。同时,结合人工智能和大数据技术,实现了多场景的AIOPS智能化运维,包括智能巡检、趋势预测、根因分析等。
指标(Metrics)中心
嘉银科技自研“离朱”全链路观测平台,全面接入各系统指标数据,实现对核心指标数据的长期观测,并以单指标、多指标、组合指标等多个维度对指标数据进行清洗和分析,为巡检、趋势预测、故障诊断系统等多个AIOPS场景积累高价值数据基础。
观测大屏
“离朱”可观测平台利用Vector,Flink,logstash等工具进行格式化处理,按场景统一展示,时刻观测系统的运行状态以及异常点,涵盖日志(logs)观测大屏、变更事件墙观测大屏和安全事件观测大屏。
调用链(Tracing)可观测
基于OTEL的可观测框架协议,嘉银科技打造了一站式云原生可观测平台。全面打通日志、prometheus监控、应用链路、事件的监控数据,实现精准观测应用的链路拓扑变化和运行状态。
AIOPS应用-智能巡检
“离朱”支持各核心系统组件的全天候观测和巡检,并结合大模型对巡检结果进行健康度权重评分,解读巡检报告,及时排查到可能存在的风险点,帮助运维规避重要基础设施的潜在故障隐患。
AIOPS应用-根因分析
在可观测基础上,嘉银自研的故障诊断系统支持自动诊断故障和辅助根因定位分析。在特定场景下,故障诊断采纳率达到45%,故障恢复时间缩短45%。
数据显示,目前“离朱”平台已经接入800+服务,5000+实例,实现1-5-10故障处理能力,故障召回率达80%,整体业务稳定性SLA逐步提升至99.99%。
未来,嘉银科技将紧跟AI发展的步伐,不断探索新技术在运维场景的应用,持续建设和完善可观测和AIOPS体系,提升运维效率,为业务稳健运营、公司高质量发展添砖加瓦、赋能助力。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)