近年来,企业业务规模的急剧上升,导致运维场景的复杂性也呈指数性上升,原本依靠人工经验的运维工作难度也变得更具有挑战性,而基于机器学习的智能运维(AIOps)开始得到企业IT人员的关注。
AIOps(Algorithmic IT operations platforms),即基于算法的IT 运维平台,也是DevOps未来发展的一个趋势。简言之,AIOps将机器学习算法引入运维中的监控和故障分析领域,如通过算法、建模、推理等方法,以辅助DevOps 提升效率,降低业务及系统出现的风险故障系数。雷锋网(公众号:雷锋网)发现,常见的如时间序列异常检测、故障根因分析、业务调度等工作均是当下运维人员所面临的挑战。
那么,智能化运维(AIOps)如何在真实业务场景中落地?Gartner为用户指出了三点建议:
一是通过增量方法确保成功部署AIOps的各项功能。
二是选择能够支持广泛的历史和流数据类型的AIOps平台。
三是选择能够在IT运营导向的分析和机器学习的四个阶段系统进步的工具。
为此,雷锋网整理了Gartner最新公布的《AIOps平台市场指南》,以帮助用户快速了解当前新兴AIOps市场情况。
主要发现
AIOps在企业IT运营中的应用正逐渐升温,其中,一些更为成熟的组织则正利用该技术为企业领导者提供洞察力。
AIOps技能和IT运营成熟度是确保其快速实现价值的常见因素,此外,数据质量成为更为成熟部署架构时的新挑战。
企业采用AIOps平台以增强应用性能监测工具(APM)和网络性能检测与诊断工具(NPMD)。
供应商正制定使用机器学习的战略,以分析IT运营在数量、种类及速度等方面遇到的数据挑战。与此同时,他们也在构建数据存储和人工智能实践定制化的能力。
定义
AIOps平台利用大数据和机器学习,通过可扩展性和对不断增长的数据进行分析,以达到对所有主流IT操作功能的支持。该平台支持同时使用多个数据源、数据收集方法以及分析和演示技术。
AIOps可以增强广泛的IT运营流程和任务,包括性能分析、异常检测、事件关联和分析、IT服务管理和自动化。其核心功能包括:
1.从多个数据源中获取数据
2.数据分析:获取数据时的实时分析;存储数据时的历史分析
3.提供对数据的访问
4.使用机器学习
5.根据分析结果进行下一步操作。(注意:分析是为了用于预测可能发生的事件,并及时回顾以确定引发当前系统行为的根本原因。)
市场分析
迄今为止,很少有供应商能提供全面、集成化的AIOps平台。然而,许多供应商提供了广泛且可内置集成的AIOps功能。为更清楚描述市场发展及供应商所处水平,Gartner将当前可用的AIOps功能划分为数据管理和分析结果两大部分:
数据获取与处理
历史和流数据管理——软件或设备允许数据获取、索引,以及存储日志数据、互联网数据、指标、文档数据,由此产生的数据库大部分是非结构化或多结构化的,而存储的数据集以高容量累积,以高速变化的格式构建。这种历史数据管理功能可被称之为“大数据管理”。
为了给IT运营人员提供帮助,这种工具必须将人类感知的数据以时间尺度呈现,并直接提供数据无需访问存储数据库。此外,它必须跨多个实时和历史数据流提供连贯的分析。
分析结果
基础及高级统计分析——单变量和多变量分析组合,包括相关性、聚类、分类和推断的使用。
模式发现及预测自动化——使用上述一种或多种类型的历史数据或流数据,以引出可从数据集本身推断但不立即存在相关性的数学或结构模式。这些模式可用来及时执行不同概率的事件预测。
异常检测——先确定正常系统行为,再辨别出与正常系统行为的偏差。
确定根本原因——对由模式发现和预测自动化组件建立的相关性网络进一步修正,以隔离代表真正因果关系的依赖性连接,从而提供有效干预。
规定性建议——对问题进行分类,将其分类为已知类别。然后,挖掘先前解决方案,分析这些解决方案的适用性并以优先级形式让其以用于修改。最终,这些将使用闭环方法,并在使用后对其有效性进行投票。
拓扑——对于AIOps检测到的相关且可操作的模式,必须围绕所获取的数据,形成的即为拓扑。使用拓扑作为因果关系确定的一部分可以大大提高其准确性和有效性。
发展方向
在过去二十年里,人工智能技术间歇性地影响了ITOM的发展,而AIOps平台只是这种影响的最新例证。IT运营一方面受到成本降低的压力,同时又增加了运营的复杂性。关于后者,可以从数量、种类、速度三个维度进行定义:
数量,IT基础架构和应用程序产生的数据量快速增长(每年增长2至3倍);
种类,机器和人生成的数据种类越来越多,如指标、日志、网络真实数据(wire data)、知识管理文档;
由于采用了云原生或其他架构,数据生成速度不断提高,IT架构也在不断变化。
考虑到现代企业所需的洞察力,以上不同维度的运营复杂性带来的成本是非常高的。在处理大量、多样化且快速增长的数据时,现有的监控工具承受了不少压力。更重要的是,监控工具不会跨平台挖掘其他多种数据,特别是用户的情感数据、业务交易数据、传感器遥测以及各种系统的日志,以获得更多洞察。
为此,非IT团队如业务leader和IT运营团队,对AIOps技术产生了越来越浓厚的兴趣。正如他们探索正探索的通用平台,其部署时最大的问题在于IT运营实现不同用例时的AIOps平台的性能和成熟度。
迄今为止,AIOps主要用于支持IT操作流程,以便监控或观测IT基础架构、应用程序表现或数字体验。此外,无论是采用机器学习对事件管理环境中的重复数据进行删除,还是在APM中结合基于字节码检测的分布式跟踪数据来分析应用程序的日志数据,这都是合理的。
AIOps平台正扩展其能够获取的数据种类的范围。在过去,供应商仅支持提供日志数据,而现在,数据种类已延伸到互联网真实数据。
因此,考虑到供需方面的趋势和技术差异,Gartner预计,在未来五年内,AIOps平台将成为AIOps功能交付最为广泛的形式,而不是仅仅将AIOps功能嵌入APM、NPMD、ITIM等监测工具中。
与此同时,IT组织也开始在DevOps环境中探索这种方式,以预测部署前的潜在问题并监测潜在的安全问题。
Gartner认为,AIOps将会演变成双向解决方案,不仅可以获取数据进行分析,还可以根据分析启动操作。这些操作最有可能通过与其他ITOM/ITSM工具集成,将采取多种形式,包括:
警报
问题分类
配置管理数据库(CMDB)
日志运行自动化
应用程序发布编排
AIOps工具在监控的四个阶段:数据采集、聚合、分析、行动,具有数据聚合和分析的核心功能。目前一些企业用户利用开源技术进行数据采集,从而绕过APM并使用AIOps作为监控功能的主要方式。
可以看到,关于监控工具与AIOps的争论才刚刚开始。从长远来看,APM将主要应用于专用领域,而AIOps将适用于更为广泛的IT运营场景。
未来
随着市场的发展,Gartner还观察到AIOps功能的一些主要变化:
一是提供与数据源无关的AIOps平台的供应商进入市场。这些产品往往是通用的,可满足最为广泛的使用案例。
二是具有关键组件但数据源往往受限的供应商,他们通常专注于一个域(如网络、端点系统、APM)。这些工具往往只有一组有限的用例,针对于某些IT运营部门。
三是一些供应商现有的监控解决方案将数据源限制在自己的监控产品中,或扩展到有限的合作伙伴。
四是一些用户通过开源项目能够通过提供数据获取的工具、大数据平台、机器学习、可视化技术来组装自己的AIOps平台,最终可混合或匹配多个供应商的组件。
目前,市场中存在一种声音:AIOps是否会取代APM、NPMD、ITIM、DEM为主的以域为中心的监控工具?其实,这是一种混淆。AIOps不会取代监控工具,相反,它增强了分析能力和更具可操作性的数据。以域为中心的监控工具将继续存在,为专家提供其域的数据获取、分析和可视化。只不过,数据将流转到AIOps平台,该平台充当的是一个将数据集中到连贯跨域分析的作用。(雷锋网摘译自Gartner)
雷锋网原创文章,未经授权禁止转载。详情见转载须知。