微服务性能异常检测与根因定位
这是一篇关于图注意力网络,VAE,异常检测,根因定位的论文, 主要内容为微服务架构是一种新的软件架构风格,它提倡将单体应用程序划分成一组小的服务(称之为微服务),每个服务运行在独立的进程中。微服务高内聚、低耦合、高可用、可伸缩等优点使得多服务应用架构逐渐成为IT应用交付的基准。然而,组件之间繁多且复杂的交互使得微服务性能异常诊断充满挑战性。如何设计一种适用于微服务架构的性能异常检测和根本原因定位方法是服务计算领域当前研究的一个热点。目前学术界已经提出了许多针对大型微服务集群进行性能异常检测与根本原因定位的方法。然而这些方法存在调用链结构信息丢失、根因定位粒度粗、不适用于调用链轨迹低交叉率场景等问题,不足于解决生产环境中微服务性能异常诊断所面临的技术难题。针对现有工作存在的不足,我们提出了一种新颖的微服务性能异常检测和根本原因定位方法。我们的方法由三部分组成:调用链异常检测模型、容器级别根因定位算法以及根因推广算法。我们首先提出了一种基于图注意力网络和变分自动编码器的无监督异常检测模型,用来进行调用链的异常检测。该模型借助事件表示将调用事件及其关系构建成调用链树状图作为特征向量。这种方法与以往方法相比不仅融合了微服务特征也很好的融合了调用链的调用结构关系,使得检测模型拥有更好的拟合效果,从而将异常定位到调用链级别。然后,我们设计了一种基于控制变量的多目标根本原因定位算法。该算法通过控制变量方法来检测异常调用链中各个微服务容器的响应时间是否异常,从而将异常从调用链级别定位到容器级别。之后我们进一步提出了一种根因推广算法,通过组件依赖图构建组件间的依赖关系,并借助投票机制自底向上将容器级异常精确地推广到组件级别。我们基于广泛使用的开源基准微服务应用和开源生产环境数据集评估我们方法的有效性。实验结果表明,我们的方法在准确率和召回率方面优于现有的异常检测与根本原因定位方法。
云环境下大规模时间序列数据的异常检测技术研究
这是一篇关于云环境,时间序列数据,异常检测,半监督学习,VAE的论文, 主要内容为在复杂多变的云环境下,为确保云中的各种应用程序和服务24/7在线,运维工程师需要同时监控实体(集群机器、容器、应用程序等)的多个指标序列(如CPU利用率、请求响应延迟等),确保服务的质量和可靠性。近年不少研究使用深度学习等算法用于时间序列的异常检测,但它们大多数是针对单个指标的异常检测,由于标签数据难以获取,导致监督学习算法难以实施,而无监督算法要么需要大量的正常数据训练,要么具有低准确率,难以满足云环境下大规模时间序列的异常检测。针对上述问题,本文对云环境下时间序列运维数据的异常检测问题进行研究,以能够及时准确地检测出异常并定位异常产生的原因。首先,提出一种实体级别的基于长短期记忆网络LSTM的半监督变分自编码的异常检测算法LR-Semi VAE,利用少量标签带动大量无标签数据一起进行训练,且用变分自编码VAE来学习多元时间序列的复杂分布,使用长短期记忆网络LSTM来建模数据间的时间依赖关系,将分类器预测的标签用于VAE重建输入序列,通过优化ELBO损失函数,使模型在训练过程中关注正常数据,忽略异常数据,且用重建概率分数作为异常检测器。最后,在第三方数据集上对LR-Semi VAE的异常检测性能进行评估,LR-Semi VAE相对于半监督学习算法VAE M2、无监督学习算法LSTM-VAE的异常检测性能分别提高了约30%和50%。其次,针对面向服务体系结构的应用和微服务的异常检测,本文在LR-Semi VAE基础上进一步提出了RT-Semi VAE异常检测算法。RT-Semi VAE使用LSTM来捕捉短期依赖、多头注意力机制Transformer学习长期依赖关系,并根据服务调用链追踪溯源根因实体,且对异常产生的原因做出指标级别的定位,方便运维工程师能及时找到异常根源并采取措施进行修复。实验表明,RT-Semi VAE相较于VAE M2和LSTM-VAE的异常检测性能分别提高约37%和55%。最后,将针对单体应用的LR-Semi VAE异常检测算法和针对服务依赖应用的RT-Semi VAE异常检测算法进行集成,设计一个面向智能运维服务的时间序列异常检测系统原型,包括监控采集时间序列数据、存储数据、融合异常检测算法、异常定位、数据展示等功能。对原型进行测试,从包丢失、内存泄漏和CPU占用等常见的异常类型与已有的其它检测方案进行对比,结果表明能快速准确地检测出异常,细粒度地定位异常产生的原因,在保障服务的质量和稳定性方面具有优势。
面向短视频消费的KPI监控系统的设计与实现
这是一篇关于KPI监控系统,异常告警,VAE,GAN的论文, 主要内容为随着互联网的迅速普及和广泛应用,人们的生活和网络服务变得密不可分,娱乐方式也更加多元化。近几年,短视频行业迅速崛起并成为一种主流的娱乐方式,各短视频平台为了提升产品性能保障用户体验,对海量用户行为数据进行实时分析和监控,以便能够及时发现问题并采取相应的措施,从而保证产品的核心竞争力并实现商业价值。本文按照需求分析、总体设计、详细设计等软件开发流程从0到1地实现了KPI(Key Performance Indicator,关键性能指标)监控系统。根据业务需求和功能需求将系统划分为数据采集、数据处理、系统登录鉴权、数据可视化、监控管理以及监控报警六大模块。数据采集模块通过SDK(Software Development Kit,软件开发工具包)埋点上报用户行为数据至日志服务器形成日志文件,使用日志采集工具Flume采集日志信息并将数据传输到消息队列Kafka中。数据处理模块采用流处理工具Flink划分滑动窗口,再通过聚合算子实现维度聚合。监控管理模块采用典型的生产者消费者模式实现监控任务的异步调度。在监控报警模块,考虑到时间序列异常检测样本类别不均衡、异常样本少且获取异常标签成本高昂,本文采用无监督学习的深度生成模型VAE(Variational Auto-Encoder,变分自编码器)和GAN(Generative Adversarial Networks,生成对抗网络)实现KPI异常检测。此外,异常检测过程中需要设置异常阈值,传统的人工阈值法依靠运维人员的经验并且需要不断调整阈值以保证报警准确率和召回率,工作量较大。因此,本文基于Linux操作系统TCP协议的RTO(Retransmission Timeout,超时重传机制)思想提出一种基于平滑均值与平滑标准差的自适应阈值,不仅节省了人力成本,而且在保证报警准确率的前提下,降低了阈值更新时服务器计算资源的消耗。在自动归因部分,为了解决传统人工归因成本高、耗时长的问题,本文通过JS(Jensen Shannon)散度量化属性异常贡献度,使用贪心搜索策略将根因定位问题转换为属性值组合的空间搜索问题。在测试阶段,从系统主要功能以及性能、稳定性、安全性等非功能方面设计测试用例进行系统测试,测试结果符合预期,达到上线标准。目前,系统已通过产品验收并在线上平稳运行。从使用效果来看监控报警准确率和召回率均符合预期,能够有效地帮助企业实时分析和监控产品性能,快速发现、定位、解决问题,降低企业维护成本,保证系统的稳定性和可靠性,具有实际意义。
微服务性能异常检测与根因定位
这是一篇关于图注意力网络,VAE,异常检测,根因定位的论文, 主要内容为微服务架构是一种新的软件架构风格,它提倡将单体应用程序划分成一组小的服务(称之为微服务),每个服务运行在独立的进程中。微服务高内聚、低耦合、高可用、可伸缩等优点使得多服务应用架构逐渐成为IT应用交付的基准。然而,组件之间繁多且复杂的交互使得微服务性能异常诊断充满挑战性。如何设计一种适用于微服务架构的性能异常检测和根本原因定位方法是服务计算领域当前研究的一个热点。目前学术界已经提出了许多针对大型微服务集群进行性能异常检测与根本原因定位的方法。然而这些方法存在调用链结构信息丢失、根因定位粒度粗、不适用于调用链轨迹低交叉率场景等问题,不足于解决生产环境中微服务性能异常诊断所面临的技术难题。针对现有工作存在的不足,我们提出了一种新颖的微服务性能异常检测和根本原因定位方法。我们的方法由三部分组成:调用链异常检测模型、容器级别根因定位算法以及根因推广算法。我们首先提出了一种基于图注意力网络和变分自动编码器的无监督异常检测模型,用来进行调用链的异常检测。该模型借助事件表示将调用事件及其关系构建成调用链树状图作为特征向量。这种方法与以往方法相比不仅融合了微服务特征也很好的融合了调用链的调用结构关系,使得检测模型拥有更好的拟合效果,从而将异常定位到调用链级别。然后,我们设计了一种基于控制变量的多目标根本原因定位算法。该算法通过控制变量方法来检测异常调用链中各个微服务容器的响应时间是否异常,从而将异常从调用链级别定位到容器级别。之后我们进一步提出了一种根因推广算法,通过组件依赖图构建组件间的依赖关系,并借助投票机制自底向上将容器级异常精确地推广到组件级别。我们基于广泛使用的开源基准微服务应用和开源生产环境数据集评估我们方法的有效性。实验结果表明,我们的方法在准确率和召回率方面优于现有的异常检测与根本原因定位方法。
面向短视频消费的KPI监控系统的设计与实现
这是一篇关于KPI监控系统,异常告警,VAE,GAN的论文, 主要内容为随着互联网的迅速普及和广泛应用,人们的生活和网络服务变得密不可分,娱乐方式也更加多元化。近几年,短视频行业迅速崛起并成为一种主流的娱乐方式,各短视频平台为了提升产品性能保障用户体验,对海量用户行为数据进行实时分析和监控,以便能够及时发现问题并采取相应的措施,从而保证产品的核心竞争力并实现商业价值。本文按照需求分析、总体设计、详细设计等软件开发流程从0到1地实现了KPI(Key Performance Indicator,关键性能指标)监控系统。根据业务需求和功能需求将系统划分为数据采集、数据处理、系统登录鉴权、数据可视化、监控管理以及监控报警六大模块。数据采集模块通过SDK(Software Development Kit,软件开发工具包)埋点上报用户行为数据至日志服务器形成日志文件,使用日志采集工具Flume采集日志信息并将数据传输到消息队列Kafka中。数据处理模块采用流处理工具Flink划分滑动窗口,再通过聚合算子实现维度聚合。监控管理模块采用典型的生产者消费者模式实现监控任务的异步调度。在监控报警模块,考虑到时间序列异常检测样本类别不均衡、异常样本少且获取异常标签成本高昂,本文采用无监督学习的深度生成模型VAE(Variational Auto-Encoder,变分自编码器)和GAN(Generative Adversarial Networks,生成对抗网络)实现KPI异常检测。此外,异常检测过程中需要设置异常阈值,传统的人工阈值法依靠运维人员的经验并且需要不断调整阈值以保证报警准确率和召回率,工作量较大。因此,本文基于Linux操作系统TCP协议的RTO(Retransmission Timeout,超时重传机制)思想提出一种基于平滑均值与平滑标准差的自适应阈值,不仅节省了人力成本,而且在保证报警准确率的前提下,降低了阈值更新时服务器计算资源的消耗。在自动归因部分,为了解决传统人工归因成本高、耗时长的问题,本文通过JS(Jensen Shannon)散度量化属性异常贡献度,使用贪心搜索策略将根因定位问题转换为属性值组合的空间搜索问题。在测试阶段,从系统主要功能以及性能、稳定性、安全性等非功能方面设计测试用例进行系统测试,测试结果符合预期,达到上线标准。目前,系统已通过产品验收并在线上平稳运行。从使用效果来看监控报警准确率和召回率均符合预期,能够有效地帮助企业实时分析和监控产品性能,快速发现、定位、解决问题,降低企业维护成本,保证系统的稳定性和可靠性,具有实际意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://bishedaima.com/lunwen/54753.html