400-035-6699
当前位置: 首页 » 技术支持 » 博文资讯 »

\"综合监控一体化平台:实现监控数据可视化详解\"

IT运维ITOM)在国外已经是一个成熟且充满创新的领域,诞生了众多市值可观的独角兽公司,如ServiceNow、DataDog和Splunk。而在中国,这个领域也在近几年迎来了快速发展。
根据前瞻产业研究院的数据,自2012年至2019年,中国IT运维市场规模呈现出波动上升的趋势。2014年市场规模达到1121.2亿元,同比增长17.34%,而2019年市场规模已增至2324.3亿元,同比增长15.73%。2020年,这一数字进一步攀升至2690亿元。
中国创业者们通过十年的探索和实践,正在向世界展示一个明确的信息:无论是专注于应用性能监控、日志分析、CMDB(运维管理平台),还是构建智能运维服务(AIOps),IT运维的竞争焦点正在从单一的产品转向为传统和政企行业提供全生命周期的服务。
在这个过程中,既有像云志、青创科技、听云这样的创新型企业,也有阿里巴巴、腾讯、百度、平安科技等巨头推出的产品线。然而,如何打造一个全栈IT运维的技术“模型”,并克服实施过程中的困难,成为了一个关键问题。
一家银行的案例为例,2018年,一位VIP客户在办理转账时遇到异常死机无法登录的问题,但银行IT部门在监控过程中并未发现任何异常。经过调查,问题可能是由于用户手机型号、系统版本兼容性、网络接入和内存问题等原因导致的。这个案例启示IT部门,他们需要将应用崩溃率降至千分之五。
通过引入第三方服务商的解决方案,该银行建立了一个以用户视角的监控平台,采用嵌入式SDK全面采集和分析真实用户的数据。最终,App崩溃率从8%降至0.4‰,目前稳定在3 ‰。
在金融行业,虽然已经有了成熟的数字化实践体系,但从代码到用户的监控平台构建并不容易,存在以下挑战:
首先,企业数字化的不同阶段建设了各种监控平台,由于缺乏系统规划,这些工具无法有效整合,导致问题出现时难以迅速定位原因。
其次,IT建设与业务目标常常脱节。企业在初期往往关注资源和服务器可用性,而忽略了用户体验的优化,导致缺乏直观的数据和指标来衡量运维效果。
第三,AIOps的不成熟也是一个问题。许多企业承诺过多,但实际落地效果不佳,要么是算法供应商缺乏数据收集能力,要么是工具型监控厂商的作用有限。
第四,新技术监控的可视性不足,例如云原生微服务技术封装了底层设施,使得系统运维所需的信息变得不可见。
第五,运维系统的敏捷性不足,与产品研发的迭代速度不匹配,导致与DevOps理念产生冲突。
面对这些问题,博瑞数据这样的企业监控服务商正在推进运营和维护的整合。他们推出的集成智能可观测平台ONE,基于数据链DNA+技术,致力于构建以用户为中心的新型运维体系。
在云原生时代,运维关注的信息变得更加不可见,这催生了可观测性技术的诞生。企业需要从全局角度洞察混合IT基础设施、数据源、网络、云和边缘终端的应用状态,以提高运维效率。
可观测性技术虽然面临挑战,但已经成为众多创业公司和云计算巨头关注的焦点。随着技术的不断发展和创新,我们有理由相信,IT运维领域将迎来更加智能化自动化的未来。

\

IT运维(ITOM)在国外是一个成熟的领域。过去成长了很多独角兽公司,包括众所周知的市值数千亿美元的ServiceNow,还有后起之秀DataDog和Splunk。

相比之下,中国的IT运维市场也在这两年进入了快速发展阶段。前瞻产业研究院数据显示,2012-2019年,中国IT运维市场规模呈现波动趋势。从增速来看,2014年达到了近年来的最高增速17.34%,达到了1121.2亿元的市场规模。2019年,中国IT运维市场规模达到2324.3亿元,同比增长15.73%。2020年,中国IT运维市场规模将达到2690亿元。

中国创业者也在用过去十年的实践向外界传递这样一个信号:无论是专注于应用性能监控(APM)、日志分析、CMDB(运维管理平台)还是构建智能运维服务(AIOps),IT运维领域的竞争焦点正开始从单点同质产品向传统、政企行业转变,以用户为中心,为用户提供全生命周期的服务。

在这个格局中,既有以云志、青创科技、听云为代表的创新型企业,也有阿里巴巴、腾讯、百度、平安科技开发的产品线。

那么,如何打造全栈IT运维的技术“模型”呢?实现这个方案有什么困难?

一起银行投诉引发的思考

2018年,某银行VIP客户在使用其系统办理资金转账操作时,出现异常死机和无法登录的问题。这个略显不愉快的经历,让这位VIP直接把诉状交到了当时银行里的高层。但内部调查结果反馈显示,IT部门在监控过程中未发现任何异常。

实际上,由于用户手机型号和系统版本造成的兼容性问题,用户的网络接入问题,内存问题等。,可能是导致应用崩溃的罪魁祸首。

然而,这种对应用崩溃的多种可能性“无所适从”的感觉,让IT部门立即决定建立一个KPI:将应用崩溃率降低到千分之五。

后来这家银行的客户通过第三方服务商给出的解决方案,搭建了一个以用户视角的监控平台,以嵌入式SDK的方式,对真实用户的完整对话进行全量的采集和分析,如对话开始时间、设备型号、OS、地区、城市、ip地址、设备ID等维度,定位问题根源。最终,App崩溃率从2018年合作之初的8%下降到一年后的0.4‰,现在已经下降到3 ‰

就金融行业而言,他们已经有了非常成熟的数字化实践体系,也不乏对自身业务理解和适用性更强的IT运维管理体系。但从代码到用户从终端用户的角度构建一个应用监控平台,类似的场景和应用实践在之前并不成熟。

首先是海岛监控。在企业数字化的过程中,在不同的阶段建设了各种类型的监控平台。由于没有系统的规划,一系列工具无法形成有机的结合,往往导致系统一旦出现问题,很难在第一时间找到问题的原因。

其次,IT建设与业务目标脱节。企业业务的发展往往以业务和用户价值为导向,但在IT建设初期,往往建立在资源和服务器的可用性上。导致IT运维在后台做了大量的用户体验优化,却没有直观的数据和指标来衡量。

第三,AIOps的不成熟。目前很多企业做了很多承诺,但是真正落地的时候发现效果很差。一种是交互算法厂商,但是不具备数据收集和数据关联的能力。二是工具型监控厂商只能在本地落地,对实际业务的作用比较小。

第四,新技术监控的可视性不足。云原生微服务技术为例。该技术封装了底层技术设施,使得系统运维所关注的信息不可见。这个时候业务只能上上层,以用户的视角作为运维体系。

第五,敏捷性不足。与产品RD需求的迭代速度不同,运维是对系统稳定性和最小改动的追求,这就导致it监控系统与DevOps的敏捷理念产生了极大的冲突。

事实上,目前的仪器化监控系统已经不能满足企业的运维需求。

运营和维护整合已经在进行中。

博瑞数据成立于2008年,2020年8月在科技创新板证券交易所上市。作为企业监控应用性能(APM)服务商,服务过腾讯、阿里巴巴、招商银行、华为、中国移动、平安等众多客户。

目前博瑞数据也和阿里云、腾讯云保持一定的合作背景,但问题是金融行业也是云厂商渗透的主要领域,客户业务都在云上。直接使用云厂商的运维监控服务可能更屌丝,也可能成为云厂商销售时的配套服务。另外,有些客户担心供应商锁定的问题,不希望自己的技术栈被锁定在某个供应商。

博瑞数据产品部高级总监孙立对钛媒体App表示,“目前云厂商自身的监控方案并不完善和成熟。基本上是基于底层度量,相关的监控能力主要是多产品组合拼凑而成,系统性较差。除非客户基于某一种云自上而下搭建自己的服务体系,否则只能使用云监控产品。一旦涉及混合云和多云管理,将进一步增加监控的隔离性。”

不久前,博瑞数据推出了集成智能可观测平台ONE,这是基于去年数据链DNA+的再次升级,也是博瑞数据自2020年上市以来最大的一次战略发布。

据了解,ONE平台从ITOM统一监控、AIOps智能运维、BizOps业务运营、DevOps效率提升四大应用场景出发,通过从代码到客户的全数据链DNA采集能力,结合大数据和AI能力,实现从传统产品工具到平台+架构的转变,构建以用户为中心的新型运维体系。

在孙立看来,“一个平台的跨平台、云无关属性恰恰是我们的优势。客户一旦要迁移到云上,就需要重新构建运维监控系统,成本很大,甚至会影响业务稳定性。基于中性的产品可以在任何地方部署和运行,而不管底层环境如何。”

博瑞数据目前主要面向互联网、金融、政企等大B客户,主要以定制和能力共建的形式提供服务。对于中小企业客户,基于其IT成熟度和实际业务量,博瑞数据希望ONE平台能够促进中小企业客户对集成工具的需求。

云原生时代的可观测性机会

与以往提到的监控技术不同,云原生时代基于微服务和容器化应用部署模式的改变,封装底层技术设施,尽量不让客户感知底层资源和环境,只关注向上的业务发展,导致系统运维关注的信息不可见。这也给了监测技术一个新名词:可观测性技术。

企业可观察的视野不再局限于应用,而是需要从全局角度洞察混合it基础设施、数据源、网络、云和边缘终端的应用状态,从而更加主动、自动、智能地提升企业运维的效率。

可观测性技术作为一个新兴的技术概念,在应用中不可避免地存在诸多困难,但不可否认的是,它已经成为各大创业公司甚至大云计算公司的关注点,比如阿里云的arm、腾讯云的TAPM、字节火山的APMPlus等等。

来源:钛媒体APP

传输资源分配【传输规划咨询】

IT运维相关文章

服务电话:
400-035-6699
企服商城