自中国移动宣布启动“云改”战略已有三年。当前,中国移动核心系统全部云化、容器化,并按照云原生的开发和运维模式,实现敏捷开发和智能运维。
云网融合的理想,正逐步照耀进现实。
尤其是随着移动云苏锡中心四千台节点投入与运营,中国移动集团网络事业部、中国移动云能力中心、江苏移动三方通力合作,为实现云、边、端算力协同做出的诸多努力已初见成效。
作为备受江苏移动信赖的运维合作伙伴,紫光股份旗下新华三集团助其在规模化运维、标准化运维、协同化运维、智慧化运维四方面焕新升级,营造云上运维新体验。
规模:基于“资源整合”下的庞大投入
作为IT技术的集大成者,云计算是诸如虚拟化,分布式存储,分布式计算,多租户等技术自然发展、精心优化与组合的结果。
相对于传统电信运维,原本单一、物理的设备变为了动态、虚拟的资源,海量的告警、日志、性能参数扑面而来,从指数级增长的网元设备管理和租户管理要求到多数据中心管理带来的风险管控和应急开销,云运维“规模巨大”,需要以更加灵活、自如的方式去管理虚拟的计算节点、存储和网络等资源。
仅以加固动作为例,江苏移动一级云上当前已经有3000+设备,每次集成都会新增几十台设备,新集成设备上线前必须完成20+项安全加固动作,维护人员需要逐台设备SSH登录并上传脚本,并要针对不同的集成应用需要多次修改脚本,一旦设备加固出错,需要先人工删除错误配置,时间成本成倍增加,整体流程繁琐复杂,且多个维护团队之间操作规范不统一,带来潜在的安全隐患。
江苏移动开展大规模运维应用实践刻不容缓,以自动化平台作为作业中心的执行平台和执行通道恰逢其时。围绕安全建设、执行通道、服务编排能力、全栈接入能力、多数据中心管理五大议题,江苏移动利用自动化平台完成入网验收、日常巡检、告警预处理、统一运维等运维工作。
针对安全加固工作量大,效率低下的问题,新华三集团AOM上线后,原有的手工安全加固操作升级为全面自动化过程,对加固操作脚本化、标准化、流程化、参数化,并实现异常步骤重复执行,整体上提升了安全加固效率,保证加固结果的一致性和准确性。诸多努力下,安全加固工作改善效果明显,所需时间较原来缩短5倍,更规避了操作过程中的异常错误,让整个加固过程更安全、更可靠。
从原始人肉运维升级到工具融合协同的平台化运维,运维效率获得指数级提升!
标准:寻找最优解的落地实践
运维走向运营,并向服务化、标准化演进是云运维的必然趋势。
这主要是因为,云运维具有被管网元同质化的特质,即由每台设备的部署参数,诸如系统版本、部署目录、配置参数、部署工具统一等带来的运维工作基本一致,大量重复性、批量级的运维任务使运维标准化至关重要。
以此为基础,通过对“运维最佳实践”的归纳和总结,进而对“最佳实践”进行统一规范和执行的“运维服务标准化”有助于降低维护难度、能耗需求及运维成本,并提高运维效率、资源效率与服务质量。
而在中国移动的运维实践中,由标准迥异、交付体系未统一等因素造成的运维能力不足仍制约着运维的效果。例如,因属地运维工作对的工作内容及标准界定模糊,运维人员对告警的故障点定界不足,漏查了其中一端;又如,由于售前、售中、售后等环节的服务交付体系未统一,致使预期的全周期服务交付在服务组织、客户响应、适配需求、故障投诉支撑等方面尚存欠缺。
于此而言,制定标准化的运营流程,严控验收环节,搭建标准化运维服务体系,形成快速交付能力已成为影响租户满意度的关键举措。
在新华三集团的帮助下,江苏移动围绕“服务、运营、验收、建设、设备”五个维度搭建起标准化运维服务体系,并将日常巡检、较低风险变更、故障通报等标准化相对较高的工作抽离出来,组成服务台团队成为内外部门信息交互的唯一接口,总体控制事件、问题、故障、变更的流程运转,全面感知云平台运维状态,以自动化支撑手段持续提升运维标准化和自动化。
协同:拒绝“一盘散沙”,建设“一支队伍”
纵横交织、流程冗长,是移动云运维工作面临的最主要困境。
一方面,移动云运维工作横向涉及网络事业部、云能、政企、客户,纵向涉及省公司各专业、IT维保商,分工界面纵横交织,切分存在困难。
另一方面,运维流程长,一个普通的投诉都会涉及多达13个环节,因个别环节设计不合理导致效率低下的事情时有发生,需要扁平化的流程和精准的故障定界能力来保证处置效率。
牵一发而动全身,一子落而满盘活。
系统性问题,当通过机制建设来解决。依托新华三集团丰富的运维经验,一套能够持续优化的运维质量管理体系得以迅速搭建。通过定期对基础运维指标、运维性能容量指标、专项团队管理指标的集合衡量,围绕“人员、服务、平台、流程、事务”等关键要素对IT运维整体管理和技术水平进行评估,并不断强化弱指标来提高整体运维质量。
运维服务依托人来展开。在搭建运维质量管理体系后,新华三集团凭借丰沛的运维人才资源助江苏移动在内部开展全网云运维培训、赋能工作,详细介绍“云计算、云存储、云专网、云安全”等前沿技术演进趋势,并对云运维所涉及的工具、制度、流程做统一梳理,最大化发挥江苏移动内部运维人员价值,全力保障业务的平稳推进。
智慧:立足当下,放眼未来
预测未来的最好方式,是创造未来。
回头看,经过多年的研发、测试、部署及运行,运营商系统内部积累了大量的运维经验。但两类情况仍是事故高发区,一是由于升级后的某些隐患未能及时发现而造成的事故;二是由于事故的发生很突然,不能快速定界,贻误时机,酿成大事故。
向前望,智能运维是运维发展的大势所趋,数字化技术通过规避故障与计划性例行维护成为传统电信系统提升运维效率、降低运维成本的重要手段。在可预见的未来,对业务的深层理解,丰富的运维经验,基于数字化技术的智能运维,将构成驱动运维效率的三驾马车。
作为赢得未来的关键一步,新华三集团助其构建“2+5+N”框架下的智慧化运维,围绕“预测-感知-诊断-决策-控制-执行”5大领域的应用,进行智能引擎设计,并建立端到端的故障处理协同流程,实现从云到网的“一步响应、协同处理”,整合碎片化的数据、知识和AI能力,快速构建可灵活复用的智慧能力模型,牵引运维智能化水平提升,有效帮助企业将风险系数与业务需求进行匹配,并在日常运维中对故障做到主动感知,最大化降低企业运维风险。
在数字化转型大潮下,传统运维面临的挑战不容忽视,仅确保IT设备安全稳定运行已无法满足企业的需求,为企业及业务创造价值已成为更深层的诉求,这要求IT运维工作朝更深度与更前沿的方向发力。在与江苏移动深度合作的征程中,新华三集团将通过数智化运维助江苏移动打造优异的运维能力,加快推进运营商数智化运维转型进程!