网络云资源池设备数量多、业务保障等级高、维护时效高。要实现海量设备高效、稳定地自动化运维,需要做到以下几点。
(1)明确日常作业工作项、流程、人工实现方案,如巡检、备份、配置检查等,并从中提炼出自动化规则、动作等。
(2)标准化日常作业的操作输出,如备份清单、配置检查目录、巡检项和参考值等。
(3)根据标准化作业形成作业脚本或作业代码,实现快速批量作业。
(4)为确保自动化批量作业的高效、稳定,可采用分布式作业架构,将资源池划分为不同作业执行区,分摊作业压力,同时区域之间相互隔离、互不影响;为避免某些作业执行时间过长出现拒绝服务的情况,可采用异步作业方式,作业下发与结果处理分离;底层自动化框架、引擎可采用无状态的高可用部署,一个节点发生故障时不会影响其他节点,同时作业系统自动隔离故障节点,确保后续作业分发到正常节点,尽可能保持系统状态可用。
(5)调研线上作业流程,开发对接流程 API,构建流程自动调度作业工具,自动采集作业结果并闭环。
(6)开发和运营低代码、零代码平台,各专业组根据运维需求,构建和丰富自动化作业工具、应急保障工具、资源数据运营工具等。