• 周二. 6 月 18th, 2024

智能运维系列2 智能监控领域的探索

admin

11 月 9, 2023 #报告, #智能化报告

主题介绍:智能运维(AIOps),根据Gartner的最新解读,是指集成大数据和机器学习能力,提取并分析数据的体量、种类和速度(volume)、种类(variety)和速度(velocity),从而提供IT运维管理产品支持。 在此,微众银行智能运维团队根据一线工作的实践经验和感悟,专门撰写了《智能运维系列》文章。 请继续关注。

点击回顾:智能运维系列(一) AIOps的兴起与实践

起源

近年来,随着大数据的积累和人工智能技术的兴起,智能运维AIOps的概念逐渐成为热潮。 然而,真正实现智能化、取得实效,对每个企业来说都是不小的挑战。 回顾微众银行推出智能的初衷,并不是单纯为了追“AIOps”热潮,而是在遇到需要解决的问题时实际采取行动,基础数据积累已初具规模,算法基本可以满足要求。 尝试。 这一尝试并非一帆风顺。 经历了各种困难和挫折。 经过2年多的努力,截至2020年初,终于取得了一些实质性成果。

2017年初,经过三年多的努力,微众银行第二代各类基础运维工具顺利完成。 CMDB、ITSM、自动化发布工具、监控系统(简称IMS)、容量系统(简称ICP)均能正常运行,特别是CMDB的推广和使用非常有效。 然而运维工具同时面临着两个压力。 一是如何快速识别和定位生产异常,二是未来如何开发和完善运维工具团队的产品,保持行业领先。

尽管微众银行监控系统的监控覆盖范围足够,但监控信息以点状状态呈现。 运维团队曾尝试通过CMDB之间的关系来压缩告警,但效果并不明显。 运维活动仍面临以下具体痛点:

正是因为以上两个问题,运维团队在异常审核时经常因为监控系统显示不清晰而受到CIO的质疑和质疑。

微众银行的分布式架构在业界享有盛誉,近年来屡获殊荣。 同时,运维管理系统也需要进一步升级与之相匹配。 一个好的运维体系不仅需要满足日常任务,还需要不断提高运维效率,减少运维人力投入,不断降低运维人力投入成本。 CIO对2015年的运维工作提出了相关要求:“监控系统能否像AlphaGo一样,自我学习、自我改进,定位根本原因?” 虽然当时运维工具还处于起步阶段,但这一要求却为微众银行智能运维未来的发展指明了方向。

针对上述问题,运维团队最初涉及到一个比较简单的解决方案:建立一个简单的规则进行比较。 无论正常还是异常,默认都会计算当前寿命曲线值的变化。 系统默认设置一个基值。 ,直接判断与基值的差异,提供预警。 不可否认,这样的设计离真正的智能运维还很远。 充其量只能说是一个解决燃眉之急的简单报告。 因此,微众银行在过去几年中不断进行积累和优化,下面将详细阐述。

运维数据积累:标准化、常态化

2015年至2017年,微众银行在运维标准化、自动化方面取得了良好进展,为运维数据的积累奠定了坚实的基础:

初步探索:基于场景的算法实现研究

真正的智能化探索工作是从2018年初开始的,实际的项目开发工作是从以下两个方面开始的。 这两项任务为后续的异常定位和根因分析起到了基石作用。 这两项任务如果不进行开发,基本上无法快速识别异常并定位根本原因。

(1)自动检测微众银行“重点产品黄金寿命指标曲线”,无需手动设置阈值。 系统自行计算阈值范围并自动报警(此功能称为“图像识别”,详细介绍文档请参见后续文章《智慧的图画》)

该功能的上线,标志着微众银行开始逐步将管理监控重点(从全行重要产品的功能出发)从细粒度的底层报警转向智能识别异常产品黄金寿命指标的健康状况,从而快速获取异常指标范围。 当然,这不会改变监控系统日常的报警处理。 一线人员仍会根据需要实时跟踪警报。 监控系统还将提供API给各产品部门的业务运维人员进行告警的二次汇聚和分析。

对于产品黄金寿命指标的监控,传统的方法是采用同月监控,需要运维人员根据经验设定阈值。 每个产品部门都有不同的做法。 图像识别上线后,监控配置的工作量就降到了报警的准确率。 有一个质的提高。

(2)绕过业务管理数据副本,根据业务流水号和时间点形成交易树,并对交易树进行实时检测并进行中断报警(该功能称为“知”,对于详细介绍文档请参考后续文章《曝光交易路径》)

产品关键功能的每笔交易都可以通过序列号生成唯一的交易树。 事务树在日常监控和运维管理中发挥着非常重要的作用。 “知道”利用LSTM/深度神经网络实时检测每一笔交易,实时发现生产中的交易异常并产生警报。

在实时检测算法开发方面,微众银行与清华大学裴丹教授进行了深度合作。 裴丹教授是我国智能运维研究领域的领军人物。 此次合作,使微众银行在智能运维的方法论和实践上取得了长足的进步。

当然,服务治理的溯源链无法覆盖所有交易类型,缺乏非人民币协议交易。 因此,2020年将不断推出新项目来解决这一问题,进一步提高交易树的全面性和准确性。

智能根本原因定位

2018年下半年,“异常根源定位项目”(简称“RCA”)正式启动。 该项目的目标非常明确,“快速识别异常并定位根本原因,期望机器能够代替人类定位异常或给出定位指导”。 基本上,我们希望打破现有的思维模式,让系统或机器人快速识别异常情况和影响范围,并提供根本原因分析。

实现思路图如下:

智能化报告_什么是智能报表_智能化报表/

图 1:根本原因分析方法说明

图中各项的解释如下(建议参考上图):

1、图像识别检测/分钟:主动监控检查,发现异常

对当前生产环境下业务产品的黄金寿命指标(关键产品功能交易量、交易时延、系统成功率、业务成功率)进行每分钟智能巡检。

2、有无异常情况?

检查当前指标是否偏离检测间隔。

遇到的问题如下:

3.1. 推送异常通知

异常发生后需要发送推送通知,涉及到很多细节问题,需要花费大量精力去管理。 通过精细化管理,效果大幅提升。 上线后,当出现异常时,没人需要问影响范围有多大。 机器人推送、PC页面端、手机端都显示的非常清晰。

首先,什么才算异常? 什么叫不异常? 某个指标的波动可能是一个小问题,对终端客户没有影响。 如果传出大的异常,所有人都难以承受。 也许您可以使用次要、主要和严重来定义警报级别。 为了区别于IMS监控系统的报警,重新定义了一套原则。

每种产品的交易频率分为高、中、低频。 有的产品每天的交易量是几亿,有的是几百万,有的是几万。 管理模式完全不同;

然后对重要程度高于平均延迟的指标进行分类,如交易量指标、系统成功率指标等;

基于以上两个维度,对每个异常进行评分,不同的评分对应不同的级别。

其次,根据不同级别明确不同的通知升级方式。 例如,当前的告警分为两类:

指标抖动:PC页面显示、微信群机器人通知、报告ITSM问题工单;

一般例外:PC页面显示、IPAD显示、微信群机器人通知、移动端微信企业号显示、公众号通知。 事件最初在事件发生期间进行分级,并且根据过程中的影响程度有升级机制。 活动的真实评级将在后续审核中进行评估。

3.2. 同时启动后端根本原因分析

发送通知的同时启动后台根本原因分析; 根本原因分析是整个项目的难点。 如何实现精准定位?

根本原因分析利用图数据库、知识图谱等多种前沿技术来支持根本原因推导。 详细的介绍后面会有详细的文章。

4、根据3.2的结论推导出根本原因结论:就像3.1中的推送通知一样,推送根本原因结论。 2 分钟内从推送警报到根本原因分析。

5、推送恢复通知:指标正常后推送恢复通知,并计算对业务量的影响。

六、赛中、赛后管理:

收入

通过内部灰度,大约需要一年半的时间才能全面推广并上线使用并稳定运行。 在此期间,运维团队经历了根因成功定位时的喜悦,也经历了根因定位精度连续两个月持续下降后的沮丧。 但总的来说,该项目是成功的,给微众银行的异常管理带来了质的变化,体现在两个方面:

首先,当异常发生时,值班组自动获取影响范围、受影响的交易量以及可能的根本原因。 领导和操作人员只需关注如何恢复异常,不再需要花时间沟通当前异常的内容。

二、从各项指标的表现来看:

探索下一步

通过2018年和2019年在异常监控和主动定位方面的不断探索,微众银行运维团队从无到有,实现了智能运维的“质的飞跃”。 然而,这些成就仅仅是开始。 未来还有很多挑战亟待解决,运维团队将不断探索和完善,大胆去前人未曾去过的地方!

本文作者

微众银行科技管理部总经理助理:朱红艳