UP能力局| 精鲲科技CTO葛丁佳:IT运维建设和运营,驱动企业业务创新变化
消费升级的浪潮下,云计算新技术的加持,数字化转型已经进入一个新时代。如今,企业数字化能力,将决定竞争力。
为了帮助更多的创业者在决策中把握行业的脉搏,在错综复杂的环境中做出正确决策,策划了“UP能力局”系列闭门活动。活动邀请行业投资人、代表性的创业者、行业专家莅临现场,以“主题分享+深度互动+茶歇交流”的形式,分享他们的案例经验,让一批最有能力者面对面探讨犀利观点、激发针对性思考。
7月26日,在上海举行了UP能力局第一期《新消费升级下的本质与技术创新》。
此次闭门会议,邀请了专注于大消费领域IT架构数据治理和运维体系的精鲲科技CTO、精鲲JKSTACK智能运维平台研发负责人葛丁佳先生。他曾帮助多家国内外知名企业实现云运维治理的数字化转型。并从专业技术角度,分享在新消费升级下,如何使用云技术、双态IT管理、数据分析更好地助力业务增长,提高企业效率和创新路径。
以下是他的演讲:
JKSTACK产品的理念是基于双模IT来做的,这也是近几年内被业界所认同的IT理念,在所有的企业当中会分为两种IT模式,第一种是稳态的IT,第二种是敏态的IT。稳态IT对应的是传统IT系统如OA业务或者ERP业务,这些业务具有稳定性的要求。
而在移动互联、人工智能的大背景下,企业内部的业务也在发生急剧的变化。公司也需要敏态和创新业务快速迭代,满足消费者的需求。因此这两种业务下的IT模式在企业内部是相互融合的。
举个例子,七八年前的微信对于腾讯是创新业务,是需要快速迭代满足用户需求,主要一点是它能不能实现我们比短信发送更便捷的功能,而那时候可能忽略了微信系统的稳定性。那时的腾讯即时通讯还是以它的传统业务为主,就是QQ。从今天来看,微信又变成了腾讯的top业务。这两种业务会持续地变化、会交替,同样对应的运维理念也是不同的。ITIL是面向稳态业务的运维管理模式,而DevOps是针对于敏态业务总结出的一套快速迭代敏捷交付的方法论。
在双模IT业务模式下,我们会遇到一些挑战,有两个维度:第一个维度是IT运维面临的问题,第二个是IT运营面临的问题。在整个业务发展过程中,很多大型企业的IT会经常用到虚拟化或者公有云的资源,从IT资产来说相对是比较分散的,运行在上面的应用相对来说发展是比较粗暴的,增长也比较快,在我们快速满足业务需求的同时,我们怎么样很好地把业务系统管理起来,这是第一个难题。
在我们进行所有资源和应用管理的情况下,我们怎么把IT服务化?这也是企业需要考虑的问题,PPT里展现的是JKSTACK产品的架构。我们核心的模块就是最底层的CMDP,它的功能是IT资源的数据平台,包括公有云、私有云、虚拟化、应用数据等资源,我们快速地通过CMDP发现它的业务关系,应用到基础的逻辑关系,来支撑整个IT运营的数字化消费。
可能很多客户都会说我已经有了基础架构监控、日志监控,这些做运维就够了,但是这些监控数据都是彼此割裂的,我们怎么把它们关联在一起?我们的双模IT实践里就有用到机器学习的算法通过智能预测、异常检测的功能来提升我们IT运维运营的能力。
在DevOps方面,JKSTACK包含持续集成、持续部署的功能,同时还会做针对云主机、虚拟机、物理机的编排,以及建数据库的部署,构建商业化的应用。所以DevOps,我们可以把它理解为一个流程编排引擎。JKSTACK架构图中最上面的部分是ITSM,在传统的IT服务管理平台中集成的是一套变更处理的流程,我们不同的地方是把DevOps流程同时打通,在做持续交付的过程中,会用流程化的方式进行控制,包括在资源创建的过程中,我们也会用自动创立资源的方式交付给用户,基于这四个模块,我们形成了JKSTACK产品的一体化架构。
从IT架构里面,我们关注IT运维能力和IT运营能力两方面。一般我们在企业内部去做落地的时候,我们分两个阶段,第一阶段是IT运维体系的建设,第二阶段是IT运营体系的建设。
针对第一个阶段,IT运维体系建设,主要的逻辑是通过CMDP快速地发现业务拓扑数据,我们会把它共享给Monitor层,然后去做日志监控、基础架构监控、APM监控的关联,来预测故障影响的范围、故障影响的等级以及故障节点的关联关系,然后来做一个事件处理的闭环。
首先,CMDP收集了非常多的IT数据,在IT数据里,我们也会帮助用户基于整个应用的实际情况来做逐一的分析。比如我们有个客户那边他会用他们一百多个系统,他需要考虑所有资源的消费,使用率是否保持非常良性的状态,要把资源回收过来,所以他们的资源是一键生成一百多个应用,用这个合理性跟应用去做资源的回收和结合自身去整理报告提升效能。同时我们还会有APM的功能,它可以从应用发现的角度来调取应用的时间,包括智能预测。
其次,JKSTACK基于已有数据加以算法和智能化应用,催生了动态基线这类场景。例如,我们有些客户在使用场景会有上下班的峰值,比如汽车企业的消费者们上班下班都要启动汽车,启动时会有大量的数据上传到数据中心。我们原来的阈值是红色的一根线,在峰值的时候会产生误告警,怎么样能降低它的误告警呢?我们可以加入动态的阈值线,避免这种有规律的误告警。还有一个智能化的场景是异常检测,主要是算基于时间点多周期的计算,如果是异常点就会被系统摘取出来。再有一类场景是我们已经能够根据平台采集和后续更新的数据对某些应用生成应用画像,我们会帮用户计算SLA是什么样的,包括计算应用的SLA,以及确定应用的SLA为什么会受到影响,原因是什么,怎么来处理,处理的方式是什么。
第三,JKSTACK包含了流程引擎,它在IT运维里的作用是每当接收到告警,就能触发运维流程实现处理闭环,同时我们还会做DevOps的集成自服务功能。在统一管理平台里,我刚才讲到了CMDP是一个运维项目,在运维上我们可以做数据展示的大屏,更多的其实不是为了做个酷炫大屏幕装装样子没有实际内容,而是因为有数据能力,我们可以帮助企业更加直观地看到IT的状态,大家可以看到IT的健康运营程度,包括资产使用情况,包括业务状态。关于DevOps这一块,在很多企业的内部,包括我们自身,在企业内部会有几百条,甚至上千条的流水线,相对来说它是围绕着研发部门建立的。
第四,JKSTACK的另一个领域是作为应用的交付平台,我们把很多的脚本操作通过编排,作为组合交付的对象,整合资源自动交付给客户。我们通过ITSM自服务这个入口,将无论是一个应用还是一个数据库也好,让客户自助申请。交付平台会有存量也会有增量的数据,当我们在做核心CMDP部署的时候,我们会对客户IT资产进行梳理,梳理完之后它保持在一个状态,比如昨天梳理完成了,今天又有新的资源,又有新的应用往数据里写,怎么保证我的数据可以是一个持续更新的状态,那就需要生命周期管理,它需要ITSM针对应用也好、变更也好,做一个流程的闭环,我们才能把增量和存量保持形成一个生命周期。
第五,
讲完了IT运维阶段的建立,它的第二个阶段,是在我们做IT运维过程中,也涉及到的运营。客户有第三方数据需要接入进来,同时我们也会有大数据处理的模块,通过切实的分析,来做数仓,然后提供给前台来满足专业的数据查询或者展示的需求。精鲲科技提供相应的BI工具给客户,结合客户自身的数据帮助客户形成信息可视化。PPT里是精鲲科技去帮用户做业务运维运营的展示,在做日志收集的时候,会涉及到客户运营的数据,包括交易量情况、产品分类、地区分类的情况,我们可以帮他们做数据的诠释和分析。
总结一下,我们做的第一层是IT运维能力的建设,面包含了资产管理能力、业务关系快速梳理能力、快速修复预防故障的能力、实践流程的处置能力,包括IT运维数据的输出能力。第二层面是运营能力,包含了DevOps流水线的整合能力、IT服务化、资源自助、应用生命周期管理,包括IT输出能力,这是我们帮各家企业做的事情。
PPT里的案例是一个大型的客户,所有的IT设备将近一万台以上,他们用的工具也还不错,其实它遇到的实际问题是IBM Tivoli监控是一个工具,BMC Remedy也是一个工具,他们希望建立一个体系,工具和工具之间无法打通就没办法建立一个体系。因为工具没有打通,所以会有很多的痛点。
我们现在提供了整个工具链,它以CMDP为核心基础,更多的模块是轻量级,体系联动更加好,能帮助用户解决痛点。同时这个平台也会帮助用户做资源的分析,不仅是解决了IT的问题,还解决了IT数据化输出的能力。现在这个平台有一百多套业务系统,这些业务人员去看到了现在应用的状态,应用的使用情况,应用的响应时间,对于应用部门来说是一个IT部门能力的输出。
所以,精鲲科技的JKSTACK智能运维管理平台不仅仅是一个工具,而是一个赋能公司业务创新的精准体系,谢谢大家。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: